基于 Python3.6.4， 快 速 掌握 大 数据 处 理工 具 
意 针 对 想 直 接 切 人 爬虫 编程 及 大 数据 分 析 处 理 的 读者 大 
学 习 过 程 中 穿插 大 小 示例 ， 方 便 读者 对 知识 点 做 编程 实 中 数据 . 
忆 数 据 库 编 程 实战 和 不 虫 框架 实战 ， 提 高 你 的 综合 编程 能 力 
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不 管 你 从 事 的 是 什么 行业 ， 进 行 数据 分 析 也 好 ， 开 发 网 页 也 好 ， 做 数据 库 后 台 编程 也 好 ， 做 


分 析 也 好 ，Python 都 是 你 必须 学 会 的 一 门 语言 。 市 场 上 有 很 多 图 书 ， 随 Python 版 本 的 升级 会 
显得 比较 旧 ， 讲 解 方式 也 比较 费解 。 本 书 选择 比较 新 的 Python 3.6.4 版 本 用 初学 者 容易 上 手 的 示例 
学 习 方法 进行 讲解 ， 全 书 逻 辑 线索 清晰 ， 方 便 读者 轻松 入 门 。 

本 书 特色 


如 何 快速 学 习 Python 编程 一 直 是 很 多 初学 者 的 疑问 ， 网 上 的 资料 很 多 ， 但 不 系统 ， 很 多 系统 
的 教程 又 过 于 偏重 讲解 ， 示 例 较 少 ， 让 初学 者 很 难 坚持 。 因 此 ， 对 于 很 多 入 门 读者 ， 更 好 的 方式 是 
先 学 习 基 础 的 Python 语法 ， 然 后 学 习 各 种 常见 模块 ， 最 后 在 实践 中 


完善 


代码 编写 技巧 。 学 习 过 程 
中 贯穿 大 小 示例 ， 方 便 读者 对 知识 点 做 实践 ， 基 于 这 种 想法 ， 笔 者 编写 了 本 书 。 本 书 特色 如 下 : 
1. 上 手 门槛 低 ， 完 全 无 基础 也 可 入 门 


作为 入 门 图 书 ， 不 会 涉及 计算 机 原理 、 操 作 系统 等 枯燥 内 容 ， 读 者 可 以 没有 这 方面 的 基础 ， 
本 书 提供 详细 的 开发 环境 搭建 步骤 及 编程 技巧 讲解 ， 手 把 手指 导读 者 入 门 Python。 


何 操作 系统 下 都 可 轻松 学 习 。 


2. 多 个 操作 系统 版 本 介绍 ，Linux、Windows、MacOS 都 可 以 轻松 学 习 
4 前 流行 的 操作 系统 各 异 ， 有 些 读者 喜欢 Linux， 有 些 公司 提供 MacOS， 更 多 的 是 常见 的 


Windows， 本 书 很 多 案例 都 会 提供 不 同 操作 系统 的 介绍 ， 让 读者 了 解 Python 的 跨 平台 特性 ， 在 任 


3. 多 个 上 手 小 示例 ， 几 乎 每 章 最 后 都 有 应 用 实战 ， 让 读者 综合 练习 ， 学 完 就 会 


要 很 多 项 目 来 练 手 本 书 几乎 每 章 最 后 都 提供 或 小 或 大 的 实战 案例 ,让 读者 既 
代码 、 教 学 视频 下 载 


读者 学 会 了 Python 语法 ， 只 是 了 解 了 如 何 写 Python 代码 ， 但 是 如 何 用 Python 解决 问题 却 需 


学 从 汪 


Ea 


法 也 学 会 编程 。 





本 书 配 套 的 示例 代码 与 教学 视频 下 载 地 址 可 以 通过 扫描 右边 的 二 维 
邮件 主 ; 


码 获取 。 如 果 下 载 有 问题 或 阅读 中 存在 疑问 ， 请 联系 booksaga@163.com， 
E 题 为 “Python3.6 零 基础 入 门 与 实战 ”。 
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搭建 Python 开发 环境 


Python 是 一 门 解释 型 编程 语言 ， 编 写 完毕 后 可 直接 执行 ， 无 须 编译 ， 发 现 Bug 后 立即 修改 ， 
节省 了 编译 时 间 。Python 流行 的 主要 原因 是 其 代码 重用 性 高 ， 可 以 把 包含 某 个 功能 的 程序 当成 模 
块 代入 其 他 程序 中 使 用 ， 因 此 Python 的 模块 库 非常 庞大 ， 几 乎 无 所 不 包 ， 不 管 是 在 科学 计算 、 机 
器 学 习 还 是 Web 开发 等 领域 都 有 其 “模块 ”的 身影 。 

Python 是 跨 平 台 性 的 ， 几 乎 所 有 的 Python 程序 可 以 不 加 修改 地 运行 在 不 同 的 操作 平台 ， 并 能 
得 到 同样 的 结果 。 

因为 Python 有 简单 、 无 所 不 能 及 跨 平 台 的 特性 ， at 朋 Python 开发 产品 ， 

就 造就 了 越 来 越 多 的 Python 岗位 。 这 个 时 代 ， 如 果 想 学 一 门 语言 ， 那 么 Python 肯定 是 首选 。 ee 
先 从 最 简单 的 环境 搭建 学 起 。 


1.1 ”Python 的 版 本 说 明 


目前 ，Python 有 两 个 版 本 : Python 2 和 Python 3。Python 2 的 最 终 版 本 是 Python 2.7.14， 写 本 
书 时 ，Python 3.6 的 最 终 正式 版 本 已 是 Python 3.6.5，Python 3.7.0 版 本 正在 完善 中 。 
Python 2 已 经 不 添加 新 的 特性 了 ， 仅 修复 原 有 的 安全 问题 ， 据 说 官方 会 在 2020 年 关闭 对 它 的 
维护 。 由 于 有 很 多 常用 库 (如 Django、Numpy) 也 宣布 逐步 放弃 对 Python 2 的 支持 ， 因 此 当前 的 
主流 选择 都 是 Python 3， 本 书 将 以 Python 3.6.4 版 本 进行 讲解 。 
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1.2 “Python 的 安装 


本 节 介 绍 在 Windows、Linux 操作 环境 下 安装 Python 的 步骤 。 


1.2.1 Windows 下 安装 Python 


这 里 以 Windows 10 操作 系统 为 例 ， 演 示 如 何在 Windows 系统 下 安装 Python。 
步 又 01 4 进入 Python 的 官方 网 址 https:/www.python.org/， 首 先 单 击 主 菜 单 中 的 Downloads 
选项 ， 然 后 将 鼠标 指向 Windows ， 会 出 现下 载 版 本 ， 单 击 Python 3.6.4， 将 自动 下 载 文件 
Python-3.6.4.exe， 如 图 1.1 所 示 。 








By welcometopythonor x es 





C  @ Python Software Foundation [US] 


Python 


放 python 


About Downloads Documentation Community Success Stories News Events 


Allreleases 

Download for Windows 
Source code 了 
Python3.64 | Python2.714 


NaEEERSEPTEFSn 3.5* connot be used on Windows XP 
MacOSX oreartier 


Na 
Other Platforms 


License 


Alternative Implementations 





https//www.python.org/ftp/python/3.6.4/python-3.6.Aexe - 


图 1.1 官方 下 载 页面 


Python 3.5+ 版 本 不 能 运行 在 Windows XP 或 更 早 的 Windows 版 本 上 。 





步 又 02& 默认 下 载 的 是 32 位 版 本 ， 若 操作 系统 是 64 位 , 就 
面 ， 选 择 适 合 自己 的 版 本 ， 如 图 1.2 所 示 。 





二 Windows 选项 , 打开 下 载 页 
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» Python 3.6.4 - 2017-12-19 


» Download Windowsx 





Web-based installer 





» Download Wind 86 executable installer 
= Download Windows x86 embeddable zip file 


» Download Windows x86-64 web-based installer 


Download Windows x xecutable installer 





» Download Windows x86-64 embeddable zip file 











=。 Download Windows help file 
图 12 选择 64 位 
x86 表示 32 位 操作 系统 ，x86-64 则 是 64 位 操作 系统 。 每 个 系统 下 一 般 会 有 3 个 版 本 : 


@ web-based 版 本 : 基于 网 络 安装 的 ， 下 载 的 文件 会 比较 小 。 
@ ”executable 版 本 : exe 可 执行 版 本 ， 推 荐 使 用 该 版 本 。 
@ embeddable zip 版 本 : 压缩 版 本 。 


步骤 03Q 64 位 下 载 的 文件 名 是 python-3.6.4-amd64.exe, 双击 它 , 系统 会 弹出 安全 警告 提示 框 ， 
如 图 1.3 所 示 。 单 击 “ 运 行 ”按钮 即 可 。 











打开 文件 - 安全 警告 x 
你 想 运行 此 文件 加 ? 


国 3 名 称 ，FA 下 载 \python-3.6.4-amd64.exe 


发 行商 : Python Software Foundation 
类 型 ， 应 用 程序 
发 送 方 ，FA 下 载 \python-3.6.4-amd64.exe 


a 
打开 此 文件 前 总 旺 淘 同 (W) 


 ,) 来 自 Internet 的 文件 可 能 对 你 有 所 帮助 ， 但 此 文件 类 型 可 能 危害 你 的 
” 计算机。 请 仅 运行 来 自 你 信任 的 发 布 者 的 软件 。 有 有 何 风险 ? 











图 1.3 安全 警告 提示 框 
步骤 04 运行 安装 程序 后 ， 有 两 个 选项 : 
日 Install Now: 立刻 按 默认 设置 安装 。 
@ Customize installation: 自 定义 安装 ， 可 选择 安装 路 径 、 默 认 的 一 些 安装 组 件 。 
因为 是 新 手 ， 所 以 直接 选择 第 一 项 默认 安装 即 可 。 

















勾 选 Add Python 3.6 to PATH 复 选 框 ( 见 图 1.4 )， 安 装 程序 会 自动 添加 环境 变量 
勾 选 ， 需 要 自己 手动 在 环境 变量 中 添加 。 





4 ”| Python 3.6 零 基础 入 门 与 实战 








Wh Python 3.6.4 (64-bit) Setup 


Install Python 3.6.4 (64-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 








四 Install Now 
CA\Users\tina\AppData\Local\Programs\Python\Python36 


Includes IDLE, pip and documentation 


Creates shortcuts and file associations 





一 Customize installation 
Choose location and features 


for Install launcher for all users (recommended) 


windbws = 








1.4” 勾 选 Add Python 3.6to PATH 复 选 框 


步骤 054 安装 过 程 如 图 1.5 所 示 。 





甸 python 3.6.4 (54-bi Setup 


] Setup 


python 


for 


windows 





Progress 


Installing: 
Python 3.6.4 Standard Library (64-bit) 


Cancel 











步骤 064 2 分 钟 后 ， 出 现 完成 窗 











1.5 开始 安装 
， 如 图 1.6 所 示 。 这 里 有 一 个 Disable 开头 的 选项 ， 











用 于 解 





决 系统 的 path 长 度 限制 , 单 击 该 选项 , 防止 后 面 路 径 出 现 不 可 知 的 问题 ( 操作 系统 低 于 Windows 10 
版 本 可 能 没有 此 选项 )。 单 击 Close 按钮 完成 安装 。 
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甸 python 3.6.4 (64-bit) Setup 一 E+ 


j Setup was successful 


Spedial thanks to Mark Hammond, without whose years of 
freely shared Windows expertise, Python for Windows would 
still be Python for DOS. 


New to Python? Start with the online tutorial and 
documentation. 


See what's new in this release. 





四 Disable path length limit 


Chan 


machine configuration to allow programs, including Python 
ie 260 character "MAX_PATH" limitation 





python 
for 
windows Close 











图 1.6 完成 窗口 


安装 完成 后 ， 打 开 操 作 系统 的 “高 级 系统 设置 | 高 级 | 环境 变量 | 用 户 变量 |path”， 从 窗口 中 可 
看 到 默认 已 经 设置 好 了 Python 的 路 径 ， 如 图 1.7 所 示 。 











CA\Users\tina\AppData\Loca\Programs\Python\Python36\Scripts\| 
Ci\Users\tina\AppData\LocaN\Programs\Python\Python36\ 

| WUSERPRORLENAPP Data\L ocal\Microsof\ WindowsApps 机 日 

| 

| M(B).. 

| We(D) 
LHW) 
TO 

夫 文 本 











确定 取消 
图 1.7 已 配置 好 的 环境 变量 
安装 Python 后 ， 会 在 菜单 栏 中 看 到 如 图 1.8 所 示 的 新 增 菜单 项 。 











6 | Python 3.6 零 基 础 入 门 与 实战 





这 4 项 内 容 分 别 是 : 


IDLE (Python 3.6 64-bit ): 
Python 3.6 Module Docs ( 


@ 0 0 9。 


最 近 添加 


[= Python 3.6 Manuals (64-bit) 


I IDLE (Python 3.6 64-bit) 


联 ， Python 3.6 Module Docs (64-bit) 


图 Python 3.6 (64-bit) 





图 1.8 已 安装 的 选项 


Python 3.6 Manuals ( 64-bit ) CHM 版 本 的 Python 3.6 官方 使 用 文档 。 


官方 自 带 的 Python 集成 开发 环境 。 
64-bit ): 模块 速 查 文档 ， 有 网 页 版 本 。 


Python 3.6 (64-bit): 我 们 常 说 的 Python 终端 。 


1.2.2 Linux 下 安装 Python 






































连接 到 虚拟 机 pyDebian 上 ， 连 接 工具 选择 Putty。 下 面 先 用 Putty 连接 Linux 机 器 。 
步骤 014 双击 Putty 图 标 ， 打 开 Putty.exe， 输 入 IP 地 址 和 端口 信息 ， 如 图 1.9 所 示 。 
保 
Categony 

SSession Basic options for your PuTTY session 
Loggng Specify the destination you want to connect to 

Teminal 

HostNamelorlpaddess) Pot 

ee 1921681.80 |] 
Features ion type 

9- Window ORaw OTenet ORlogn 图 SSH OSeral 
ear Load. save or delete a stored session 
Translation Saved Sessions 
Colours | 

-Connection ap Ee 
Data 
Proxy 
Telnet Delete 
Rlogin 

由 -SSH 
So lose window on ex 
OANways ONever © Onlyon ceanext 
About Help Open Cancal 











图 1.9 ”Putty 连接 设置 
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步 聂 024 单 击 Open 按钮 ， 第 一 次 使 用 Putty 登录 Linux 系统 会 弹出 一 个 安全 警告 提示 框 ， 如 图 





1.10 所 示 。 


步骤 034 单 击 "是 (Y) "按钮 ,进入 Linux 的 登录 界面 ( 用 户 名 和 密码 使 用 默认 的 king:qwe123 )， 


如 图 1.11 所 示 。 
衣 : 


The server's host key is not cached in the registry. You 
have no guarantee that the server is the computer you 
think it is. 

The server's rsa2 key fingerprint is: 

ssh-rsa 2048 18:fb:7f:a6:dc:56:29:4e:46:1c:7b:af:d4:85:a9:43 
If you trust this host, hit Yes to add the key to 


PuTTY's cache and carry on connecting. 

If you want to carry on connecting just once, without 
adding the key to the cache, hit No. 

If you do not trust this host hit Cancel to abandon the 
connection. 


1.10 Putty 安全 警告 提示 框 








Ogin as: 
ing@192.168.1.80's password: 








[The programs included with the Debian GNU/Linux system are free software; 


che exact distribution terms for each program are described in the 


individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
permitted by applicable law. 

Last login: Wed Oct 11 22:45:07 2017 from 192.168.1.99 
king@debian8:~$ | 


步骤 044 输入 用 户 名 和 用 户 密码 后 ( 





图 1.11 登录 Linux 




















户 密码 不 回 显 )， 登 录 到 Linux。 


Debian Linux 默认 安装 了 Python 2 和 Python 3( 几乎 所 有 的 Linux 发 行 版 本 都 默认 安装 Python )。 
Python 命令 默认 指向 Python 2.7， 验 证 一 下 Python 的 路 径 ， 执 行 命令 : 


where is python 


1s -1 /usr/bin/python 
1s -1 /usr/bin/python3 


执行 的 结果 如 图 1.12 所 示 。 
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losin as: xing 
king@192.168.1.80's password: 


|rhe programs included with the Debian GNU/Linux system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent 
Ipermitted by applicable law. 

Last login: Wed Oct 11 22:45:07 2017 from 192.168.1.99 
king@debians:~$[whereis python 
Ipython: /usr/bin/python3.4 /usr/bin/python /usr/bin/python2.7 /usr/bin/python3.4 
四 /usr/1ib/python3.4 /usr/lib/python2.7 /usr/1lib/python2.6 /etc/python3.4 /etc/p 
ython /etc/python2.7 /usr/1local/lib/python3.4 /usr/local/lib/python2.7 /usr/incl 
ude/python2.7 /usr/share/python /usr/share/man/manl/python.1.gz 

:~$[1s -1 /usr/bin/python 
lrwxrwxrwx 1 root root 9 9 12 
king@debian8:~$ [13 -1 /usr/bin/p: 
lrwxrwxrwx 1 root root 5 5 月 13 
king@debian8:~$ [| 


























7 /usr/bin/python -> python2.7 
n3 
17 /usr/bin/python3 -> python3.4 

































图 1.12 查看 Python 路 径 


再 来 看 看 Python 的 版 本 信息 ， 分 别 执行 命令 : 


Python2 -V 
Python3 -V 


执行 的 结果 如 图 1.13 所 示 。 
SB iing@debia 


从 图 1. 


是 不 同 的 。 





图 1.13 Python 版 本 信息 


13 中 可 以 看 出 ，Linux 上 安装 的 Python 版 本 与 官方 网 站 上 的 最 新 版 本 (Python 3.6.4) 
这 是 正常 现象 ， 一 般 来 说 Debian Linux 会 使 用 软件 的 最 稳定 版 本 ， 而 Ubuntu Linux 会 


使 用 软件 的 最 新 版 本 。 


1.3 打开 Python 的 方式 


打开 Python 的 方式 有 多 种 ， 这 里 简单 介绍 一 下 。 


(1) 因 





为 环境 变量 中 已 经 添加 了 Python, 所 以 直接 调用 Windows 的 命令 行 (cmd), 输 入 python 


命令 ， 即 可 打开 Python， 如 图 1.14 所 示 。 
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CA\Windows\system32\cmd.exe - python - -到 
TITTTTTSTEEST3ERTITTTU 肌 
Kc》2813 Microsoft Corporation。 保 留 所 有 权利 


9》 [MSC v.1988 64 bit CAMD64)]| 
on win32 
ype “help", “copyright", “credits" or “license” for more information- 
> >> a 





图 1.14 输入 python 命令 


(2) 通过 安装 后 菜单 中 的 Python 终端 (图 1.15 左 ) 和 IDEL (图 1.15 右 ) 也 可 以 打开 Python。 


pm Python 3.6 (64-bit) i Python 3.6.4 Shell -°° 匡 到 
lpython 3.6.4 Cv3.6.4:d48eceb, Dec 19 2817. @ E 


4:49》 [MSC v.1999 6 加 it Shell Debug Options Window Help 
19 2017，06:54: 40) DISC 













cense()” for more infor 


> Ln:3 cok4 


图 1.15 Python 终端 和 IDEL 
1.4 交互 模式 解释 喜 


打开 Python 后 ， ei “>>>” 符 号 。 简 单 来 说 ， 这 就 是 Python 交互 模式 解释 器 。 

这 里 会 讲 到 两 个 概念 : 交互 和 解释 器 。 学 过 计算 机 基本 原理 ee 1 解释 器 的 意思 ， 
即将 高 级 语言 解释 给 机 器 听 ， 也 就 是 将 代码 转换 成 计算 机 能 懂 的 机 器 码 。 交互 就 是 你 问 我 、 我 回复 
你 。 





有 了 交互 模式 解释 器 ， 我 们 就 不 用 创建 、 编 辑 、 保 存 后 再 运行 源 文件 了 。Python 中 的 交互 模 
式 解 释 器 以 “>>>” 开 头 ， 当 我 们 用 它 执行 代码 时 ， 不 但 会 检查 代码 的 正确 性 ， 而 且 还 能 在 把 这 段 
新 代码 加 入 源 文 件 之 前 进行 各 种 操作 ， 如 查看 数据 结构 。 

例如 ， 我 们 可 以 直接 用 print 函数 输出 一 段 中 文 、 一 个 计算 表达 式 的 结果 ， 如 图 1.16 所 示 。 这 
个 时 候 并 不 需要 保存 脚本 文件 ， 就 可 以 执行 代码 。 





Python 语句 的 最 后 可 以 加 分 号 ， 也 可 以 不 加 分 号 。 建 议 统一 不 加 分 号 ， 除 非 几 个 语句 写 在 
同一 行 中 ， 才 用 分 号 间隔 。 
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Python 3.6.4 Shell - = 酉 到 
indow Help 
9 2017, 06:54:40) [NSC v.1900 54 bit (AWD64)] 





Shell_ Debug 
G4 (v3. 6. 4-d46 












ense()” for more infornation. 


Lm7 Cok4 


图 1.16 交互 模式 解释 器 
1.5 第 一 个 Python 程序 Hello World 


鉴于 Python 运行 代码 的 多 样 性 ， 本 节 介 绍 两 种 实现 第 一 个 程序 的 方法 : 交互 式 和 脚本 式 。 


1.5.1 交互 式 


前 面 已 经 介绍 过 交互 模式 解释 器 ， 可 以 直接 输入 代码 。 下 面 编写 第 一 个 程序 : 
print("Hello World !") 


直接 在 Python IDEL 中 输入 以 上 代码 ， 如 图 1.17 所 示 。 
>>> print ("Hello World !*) 
Hello World ! 
>>> | 
图 1.17 Python IDEL 


1.5.2 ”脚本 式 


脚本 式 就 是 将 代码 保存 为 脚本 文件 ， 然 后 使 用 python 命令 执行 这 个 文件 。 





打开 Python IDEL， 单 击 FilelNew File， 打 开 IDEL 的 编辑 器 ， 输 入 如 下 代码 ， 如 图 1.18 所 示 。 


print("Hello World !") 


BB *Untitled* -5 国 到 


Ele Edit Format Run Options Window Help 
[print CHello World 1”) 


tn:1 Col:23 


图 1.18 IDEL 的 编辑 器 
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保存 上 述 文件 到 合适 的 位 置 (如 D 盘 ) ， 并 命名 为 hellopy， 如 图 1.19 所 示 。 


BB hello.py - Dhello.py (3.6.4) - 5 匡 到 
Ble Edit Format Run Options Window Help 
Pe. Hellc rld !”) 


Ln:1 Cok23 


图 1.19 保存 py 文件 


此 时 ， 可 以 直接 使 用 Run|Run Module 菜单 命令 执行 这 个 脚本 文件 ， 如 图 1.20 所 示 。 
= RESTART: D: \hello.py = 








Hello World 
>>>| 





图 1.20 执行 脚本 
打开 Windows 命令 行 客户 端 (cmd) ， 输 入 以 下 命令 ， 也 能 执行 这 个 脚本 文件 ， 如 图 1.21 所 
未 。 


Python d:\hello.py 


:NUsers>python d:\hello.py 
ello World + 


:sers> 





图 1.21 在 命令 行 执行 脚本 
1.6 ”Python 开发 工具 


集成 开发 环境 (Integrated Development Environment，IDE) 是 用 于 提供 程序 开发 环境 的 应 用 程 
序 , 一 般 包 括 代 码 编辑 器 、 编 译 器 、 调 试 器 和 图 形 用 户 界面 等 工具 。 它 集成 了 代码 编写 功能 、 分 析 
功能 、 编译 功能 、 调试 功能 等 一 体 化 的 开发 软件 服务 套件 Python 常用 的 IDE 有 两 种 : 自 带 的 IDEL 
和 PyCharm。 


1.6.1 Python 自 带 集成 开发 环境 IDEL 


本 节 通过 一 段 代 码 来 演示 IDEL 的 使 用 。 虽然 很 多 高 手 会 建议 初学 者 使 用 更 好 的 编辑 器 (有些 
是 收费 的 ) ， 但 鉴于 这 是 Python 自 带 的 开发 环境 ， 还 是 讲解 一 下 它 的 使 用 方法 ， 让 读者 在 比较 小 
的 学 习 成 本 基础 上 方便 自己 的 开发 。 

初学 者 要 重点 学 习 IDEL 的 三 部 分 内 容 : 编辑 器 、 解 释 器 和 调试 器 。 


峙 








12 ”| Python 3.6 零 基础 入 门 与 实战 





1. 编辑 器 


打开 Python IDEL， 单 击 File[INew File 菜单 ， 打 开 编 辑 器 ， 输 入 以 下 代码 ， 如 图 1.22 所 示 。 
【示例 1-1】 


01 “numl=input( "请 输入 第 1 个 数值 : ') 

02 numl=int (numl) 

03 ”num2=input ( "请 输入 第 2 个 数值 : ') 

04 num2=int (num2) 

05 if numl>num2: 

06 Print (' 第 1 个 数值 大 于 第 2 个 数值 。') 

07 else: 

08 Print (' 第 1 个 数值 并 不 比 第 2 个 数值 大 。') 


Ele Edit Format Run Options Window Help 
|nunl=input ("请 输入 第 ! 个 数值 :“) 

nunl=int (nunl) ， . 

| nun2=input ( 请 输入 第 2 个 数值 :“) 

| num2=int (num2， 

1f nunl>m 


um2 
print 〈 "第 1 个 数值 大 于 第 2 个 数值 。 ) 
else 
print ("第 1 个 数值 并 不 比 第 2 个 数值 大 。") 








Ln:9 Col:0 


图 122 编辑 器 
在 编辑 器 窗口 中 有 菜单 栏 、 文 本 和 输入 区 域 。 这 里 说 一 下 编辑 器 的 特色 : 


(1) 高 亮 显示 Python 语法 。 读 者 会 看 到 桶 黄色 的 认 和 else、 绿色 的 字符 串 、 紫 色 的 函数 等 ( 实 
际 效果 请 读者 在 电脑 上 打开 这 个 文件 观察 ) 。 

〈2) 自动 缩 进 。Python 有 严格 的 缩 进 要 求 ， 当 输入 if 条 件 后 面 的 冒号 再 回 车 后 ， 编 辑 器 会 
自动 缩 进 。 缩 进 的 长 度 可 以 通过 菜单 FormatINew Indent Width 修改 ， 默 认 是 4。 

(3) 自动 完成 。 这 是 初学 者 比较 喜欢 的 功能 ， 对 于 一 个 函数 名 称 ， 我 们 只 需要 输入 前 几 个 字 
母 ， 就 可 以 使 用 Alth (或 菜单 Edit|Expand Word) 自动 完成 。 

(4) 查询 复杂 函数 。 如 果 记 不 住 某 个 函数 的 名 字 ， 只 知道 前 三 个 字母 , 可 通过 Ctrl+Space (或 
菜单 EdilShow Completetions) 罗列 出 符合 前 几 个 字母 的 所 有 函数 ， 如 图 1.23 所 示 。 


Print 【和 TI 下 甄 值 开 不 氏 第 2 下 对 什 天。 了 
r 





slice tn:9 Cok:6 





图 1.23 ”罗列 函数 
(5) 自动 增加 或 去 掉 注释 。 大 部 分 编辑 器 都 具备 将 选中 的 行 变 为 注释 段 或 取消 注释 的 功能 ， 
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IDEL 也 是 。 选 中 一 段 代码 ， 然 后 按 Alt+3 组 合 键 〈 或 菜单 FormatlIComment Out Region) ， 就 会 在 
行 前 面 增加 嵌 符 号 ， 如 图 1.24 所 示 。 按 Alt+4 组 合 键 (或 菜单 FormatlUncomment Region ) 会 取消 
注释 。 





Fle Edit Format Run Options Window Help 


if numl>num2: 








int (第 


”print ( 第! 个 数值 并 不 比 第 2 个 数值 大 。") 


图 1.24 自动 增加 注释 
# 是 Python 的 单行 注释 符号 ，" 是 多 行 注释 ， 如 下 代码 所 示 : 


这 是 注释 
这 是 注释 
这 是 注释 


2. 解释 器 

交互 模式 解释 器 前 面 已 经 介绍 过 ， 在 编辑 器 窗口 中 单 击 菜单 Run|Run Module 命令 就 会 自动 转 
换 到 解释 器 窗口 ， 并 给 出 执行 效果 。 

3. 调试 器 

如 果 代 码 有 问题 ， 可 以 使 用 调试 器 。 在 IDEL 窗口 中 单 击 菜单 Debug|Debugger 命令 打开 调试 
器 ， 此 时 解释 器 也 发 生 了 改变 ， 如 图 1.25 所 示 。 关 闭 Debug 后 ON 会 变 为 OFF。 


BB Debug Control - 口 
WS Stack FF Source 
WS Locals 厂 Globals 








Locals 


pr [DEBUG ON] 
>>> 


图 1.25 调试 器 
在 解释 器 中 输入 print(1+3)， 将 看 到 调试 器 的 变化 ， 如 图 1.26 所 示 。 
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EE Debug Control - - 匡 到 


WS Stack 厂 Source 
Go | Step | Over | Out | Quit 
WS Locals Globals 


<pyshell#1>:1: <module>0 


|bdb'.run0, line 431: exec(cmd, globals, locals) 





> '_main_‘.<module>0), line 1: print(1+3); 


Locals 
_annotations_1 
_builins <module 'buikins (built-in)> 
_doc_ None 
file_ ‘Diftest,py.py’ 
_loader_ <class ' frozen_importiib.BuiltinImporter > 
—name_ -main 
_package ”None 
_spec_ None 
num1 1 
num2 2 


1.26 调试 器 的 变化 


1.6.2 ”安装 PyCharm 集成 开发 环境 


PyCharm 是 一 种 Python IDE， 带 有 一 整套 可 以 帮助 用 户 在 使 用 Python 语言 开发 时 提高 效率 的 
工具 ， 如 调试 、 语 法 高 亮 、Project 管理 、 代 码 跳 转 、 智 能 提示 、 自 动 完成 、 单 元 测试 、 版 本 控制 。 
目前 使 用 比较 多 的 Python IDE 就 是 PyCharm， 其 可 以 跨 平 台 ， 在 Mac OS 和 Windows 系统 下 都 可 
以 用 。 缺 点 是 专业 版 具有 30 天 免费 ， 如 果 要 使 用 专业 版 就 需要 花 钱 购 买 。 

PyCharm 的 官方 网 址 是 http://www.jetbrains.com/pycharm/。 从 网 址 可 以 看 出 ， 其 属于 JetBrains 
公司 ， 位 于 布拉格 ， 为 人 所 熟知 的 产品 是 Java 集成 开发 环境 一 一 IntelliJ IDEA。 

步骤 014 打开 官网 , 如 图 1.27 所 示 , 然后 单 击 DOWNLOAD NOW 按钮 , 出 现 操作 系统 选择 ， 
如 图 1.28 所 示 ， 有 社区 版 和 专业 版 ， 社 区 版 是 免费 开源 的 。 这 里 使 用 专业 版 来 讲解 ， 读 者 也 可 以 选 
用 社区 版 学 习 本 书 内 容 。 
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Ee 


© [© wwwjetbrains com/pycharm/ 


吕 妆 | : 





‘ 国 PyCharm 


Python IDE 
for Professional 
Developers 


DowNLOAD Now 


Fuliooged prog 





1.27 PyCharm 官网 


Download PyCharm 





Windows macOs Linux 
Professional Community 
Full-featured IDE Lightweight IDE 
for Python & Web for Python & Scientific 
development development 

Freetnal Free, open-source 





1.28 选择 操作 系统 


司 won cominem Whats New Features Docs&Demos Buy Download ) 
















步骤 024 选择 Windows 下 的 Professional ( 专业 ) 版 ， 单 击 DOWNLOAD 按钮 会 自动 下 载 ， 


下 载 后 的 文件 名 为 pycharm-professional-2017.3.3.exe， 大 小 为 250MB。 
步骤 034 双击 下 载 的 文件 进行 安装 ， 如 图 1.29 所 示 。 
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一 x 


Welcome to PyCharm Setup 


Setup will guide you through the installation of PyCharm. 


Itis recommended that you dose all other applications 
before starting Setup. This will make it possible to update 
relevant system files without having to reboot your 
computer. 


Click Next to continue. 











Cane 
图 1.29 开始 安装 PyCharm 
步骤 044 单 击 Next 按钮 ， 然 后 选择 安装 位 置 ， 这 里 没有 特殊 要 求 ， 如 图 1.30 所 示 。 
加 PyCharm Setup x 


Choose Install Location 
Choose the folder in which to install PyCharm. 


Setup will install PyCharm in the following folder, To install in a different folder, dick Browse 
and select another folder. Click Next to continue, 
























js \PyCharm 2017.3.3 








<ead [Neat> ] | cance | 
图 1.30 选择 安装 位 置 


步 邓 05 人 单 击 Next 按钮 ， 出 现 如 图 1.31 所 示 的 配置 界面 ， 根 据 系统 选择 是 32 位 还 是 64 位 ， 
然后 勾 选 关联 .py 扩展 名 的 复 选 框 。 
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PyCharm Setup 一 p 
Installation Options 
Configure your PyCharm installation 
Create Desktop Shortcut 
口 32bitlaunder 回 64bitlaundher 





OD Download and install JRE x86 by JetBrains 








se ees] ore 





131 选择 64 位 


步 野 064 单 击 Next 按钮 ， 在 主 菜单 中 创建 程序 的 快捷 方式 ， 默认 命名 即 可 ， 如 图 1.32 所 示 。 





PyCharm Setup 


记 


x 


Choose Start Menu Folder 
Choose a Start Menu folder for the PyCharm shortcuts. 





Select the Start Menu folder in which you would like to create the program's shortcuts, You 
can also enter a name to create a new folder. 











360 安 全 中 心 


Accessibility 


Accessories 
Administrative Tools 


Microsoft Office 
Python 3.6 





- 


< 














<Back [meal | | concs 





步 又 07 4 单 击 Install 按钮 开始 解压 文件 ，1 分 钟 安装 完毕 ， 如 


行 的 Run PyCharm 复 选 框 。 


1.32 ”添加 快捷 项 到 主 菜 单 





图 








1.33 所 示 。 可 以 勾 选 立刻 运 
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Completing PyCharm Setup 


PyCharm has been installed on your computer. 
Cic Finish to dose Setup. 








步 又 08 4 单 击 Finish 按钮 会 打开 PyCharm， 第 一 次 打开 会 有 两 个 导入 包 的 设置 项 ， 这 里 选择 
默认 的 第 2 个 ， 如 图 1.34 所 示 。 
筷 Complete Installation 


Tmport PyCharm settings from- 


O baton Lention Coie oid 





® import settings 





图 1.34 是 否 导入 包 
步骤 09 4 单 击 OK 按钮 后 出 现 许可 协议 ， 再 单 击 Accept 按钮 ， 如 图 1.35 所 示 。 





篇 PyCharm privacy Policy Agreement x 


Please read and accept these terms and conditions 


JetBrains Privacy Policy 
Last updated: 14th March 2016 


This Policy may be amended from time to time. The respective latest 
version of the policy at the point of time of the purchase/registration of a 
JetBrains Software Product (whichever occurs later) shall apply. The data 
controller is JetBrains s.r.0., praha 4, Na hiebenech ll 1718/10, PSC 147 00, 
Ceské republika 


In this privacy Policy, we describe the type of data, including personal data 
(collectively, "data"), that we collect from you when you use our Website 
(listed under JetBrains WebsSite) and certain JetBrains products and 
services as described in this Privacy Policy (collectively, our “services") and 
how we use and disclose that data. The following definitions will be used 
throughout this Privacy Policy. 











i 


1.35 接受 协议 
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击 Evaluate 按 




















步骤 104 此 时 会 出 现 注册 账号 的 窗口 ， 我 们 选择 免费 试用 Evaluate for free， 和 
钮 ( 见 图 1.36 )， 然 后 出 现 一 个 试用 协议 ， 直 接 单 击 Accept 按 钮 即 可 。 



































家 PyCharm License Activation 一 口 x 


Buy PyCharm 





Oictivate @E 


Evaluation is free for 30 days 


Tell me about new product features as they come out 


Email address (optional) 








Evaluate Exit 




















图 1.36 ”免费 试用 








步骤 114 第 一 次 打开 也 需要 设置 UI 主题 ， 如 图 1.37 所 示 ， 根 据 自己 的 爱好 进行 选择 。 选 择 
完成 后 ， 单 击 左 侧 的 Skip Remaining and Set Defaults， 以 后 就 会 默认 这 个 UI 主题 。 














Ul Themes — Featured plugins 


Set UI theme 


图 Intel O 〇 Darcula 


project ) 项 他 py 
沪 fib.py 


def fibl(n): 
a,b=0, 
while a 








£ib(1000) 国 Breakpoints 国 8reskpoints 


十 一 国 

~ 回国 python Line Breakpoint 

~ 回转 Python Exception Breakpoi 
Any exception 

~ DD @ Django Exception Breakpoi 
a 





Ul theme can be changed later in Settings | Appearance & Behavior | Appearance 





Next: Featured plugins 








Skip Remaining and Set Defaults 








图 1.37 选择 主题 
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步骤 124 截止 到 现在 ， 才 真正 打开 PyCharm， 如 图 1.38 所 示 。 可 以 打开 已 经 存在 的 项 目 ， 也 
可 以 新 建 项 目 。 


向 Welcome to PyCharm x 


国 


PyChar 














后 open 


量 check out from Version Control » 





亲 Configure - Get Help - 








图 1.38 PyCharm 初始 界面 
步骤 13 单 击 Create New Project 选项 ， 出 现 项 目 类 型 的 选择 界面 ， 如 图 1.39 所 示 。 








春 New Project 二 x 
加 所 ~ Location: |C\Users\tina\PycharmProjects\untitled 

Django 
人 Flask * Pproject Interpreter New Virtualenv environment 


® Google App Engine 





WW Angular CU 

WW Angularns 
Foundation 

加 HTML5 Boilerplate 
各 React App 

各 React Native 

加 Twiter Bootstrap 
《》 Web Starter Kit 








ea 





1.39 选择 项 目 类 型 


步骤 144 如 果 希 望 自己 的 项 目 保存 在 特定 位 置 ， 可 以 修改 此 处 ， 然 后 单 击 Create 按钮 。 此 时 
需要 等 待 1 分 钟 的 时 间 配 置 环境 。 最 终 创建 好 的 项 目 界 面 如 图 1.40 所 示 。 





第 1 章 搭建 Python 开发 环境 | 21 




















untided CNUsersinapychamprajeaswntitedl- PyCharm i 
J ee de eh oe WR Wi es ee 
a untitled SAAEA2R) 
> MN External Ubraries 

a Indexing- 一 -一 一 aaO 








1.40 创建 好 的 项 目 界面 


1.6.3 ”使 用 PyCharm 集成 开发 环境 
PyCharm 的 功能 有 很 多 , 使 用 起 来 比 IDEL 复杂 , 本 书 的 大 部 分 例子 都 是 使 用 IDEL 进行 测试 。 


下 面 简单 介绍 一 下 PyCharm 的 使 用 。 


1. 创建 Python 文件 
步 又 014 右 击 新 建 的 项 目 ， 选 择 New|Python File， 输 入 文件 名 ， 如 pyl.py， 如 图 1.41 所 示 。 


筷 New Python file x 





Name: pyl.py 
Kind: | 证 Python file 加 | 
Lox |][ Conee | 
图 1.41 创建 Python 文件 
步骤 024 单 击 OK 按钮 ， 鼠 标 会 停留 在 右 侧 的 编辑 界面 ， 输 入 以 下 代码 : 
print('Hello Python') 
按 Ctrl+S 组 合 键 保存 ， 这 样 第 一 个 Python 文件 就 创建 好 了 。 


2. 运行 Python 文件 
PyCharm 的 运行 都 在 菜单 Run 中 。 选 择 Run|Run “py1’ 命 令 (或 按 Shift+F10 组 合 键 )， 就 会 
出 现 一 个 控制 台 ， 输 出 上 述 代码 的 运行 结果 ， 如 图 1.42 所 示 。 
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He ER OA Code Rebror Rin TS VCs Wndow Eap 
untited 入 PyiFy 全 让 | 








上 | 术 pyipy 





ein Bell, Pro 





pip-sefehecejson 
头 pmoy 
Erternal Uibraries 











ets Nearitled\r ene 15eriptslpytbea eur © /Usese/e3na/Tysheralzojects/uatit Led/ Fy 
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图 1.42 运行 Python 文件 


1.7 注意 Python 的 缩 进 


学 习 过 C、Java、JavaScript、C# 语 言 的 读者 应 该 知道 ， 这 些 语言 都 使 用 {} 表 示 代 码 段 ， 如 一 
段 让 代码 : 
【示例 1-2】 


01 。// 判 断 用 户 的 输入 
02 if (choice=="1") 


0 

04 Console .Write ("你 目前 的 开发 工作 是 :1 ") 7 
05 } 

06 else if (choice == "2") 

07 1{ 

08 Console .Write ("你 目前 的 开发 工作 是 :2"); 
09 |} 

10 else 

3 

12 Console .Write ("对 不 起 你 选择 错误 ") ; 

Eg Console .Write ("请 重新 选择 ") ; 

14 上 


在 Python 中， 相同 的 缩 进 代码 才 表 示 它 们 属于 一 个 代码 段 。 下 面 使 用 前 面 学 习 过 的 一 段 代码 
【示例 1-1】， 我 们 给 numl 的 值 加 10， 缩 进 大 小 和 else 语句 中 的 内 容 保持 相同 。 读 者 可 以 思考 : 
是 不 管 numl 和 num2 谁 大 谁 小 都 会 输出 num1 的 值 ， 还 是 只 有 当 num1<=num2 时 才 输 出 numl 的 
值 ? 
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【示例 1-3】 


01 ”num1l=input (' 请 输入 第 1 个 数值 :') 

02 ”numl=int (numl) 

03 ”num2=input ( "请 输入 第 2 个 数值 : ') 

04 num2=int (num2) 

05 if numl>num2: 

06 print (' 第 1 个 数值 大 于 第 2 个 数值 。') 

07 else: 

08 print (' 第 1 个 数值 并 不 比 第 2 个 数值 大 。') 
09 numl=num1+10 

10 Print (numl) 


代码 执行 的 结果 对 比如 图 1.43 所 示 。 只 有 当 num1<=num2 时 才 输 出 numl 的 值 。 


>>> 


============================ RESTART: D: /test1.py ============================ 


请 输入 第 1 个 数值 : 1 


请 输入 第 2 个 数值 : 5 
沉 1 个 部 值 并 不 比 第 2 个 数值 大 。 


============================ RESTART. D:/testl.py ============================ 


请 输入 第 1 个 数值 : 5 

请 输入 弟 2 个 数值 : 1 

于 :让 开 右 人 下 92 个 政 便 : 
>>> 


图 143 缩 进 对 比 1 


继续 更 改 上 一 段 代 码 的 缩 进 ， 如 下 : 
【示例 1-4】 
01 “numl=input (" 请 输入 第 1 个 数值 :') 


02 ”numl=int (numl) 
03 ”num2=input (" 请 输入 第 2 个 数值 : ' ) 

04 ”num2=int (num2) 

05 if numl>num2: 

06 Print (' 第 1 个 数值 大 于 第 2 个 数值 。') 

07 else: 

08 print (' 第 1 个 数值 并 不 比 第 2 个 数值 大 。') 
09 ”numl=numl1+10 

10 print(num1) 








不 管 numl 和 num2 谁 大 谁 小 都 会 输出 numl 的 值 ， 如 图 1.44 所 示 。 








== RESTART: D: /test1.p7 ======: 






济 涤 


说 输 入 弟 2 人 
得 1 个 效 秆 大 


15 
>>>1 








图 144 缩 进 对 比 2 


Python 中 的 数据 与 结构 


学 习 一 门 语言 , 读者 需要 了 解 该 语言 中 数据 的 存在 形式 。 存 在 形式 多 种 多 样 , 有 数字 、 字 符 …… 
为 了 方便 学 习 ， 语 言 会 将 它们 进行 归 类 ， 这 就 是 常 说 的 数据 类 型 。 每 种 语言 的 数据 类 型 都 差不多 ， 
如 Python 中 有 数字 类 型 、 字 符 串 类 型 ，Java 中 也 有 ，C# 语 言 中 也 有 。 学 习 这 些 类 型 是 每 种 语言 基 
础 的 语法 。 本 章 介绍 的 是 Python 中 的 数据 类 型 。 


2.1 Python 中 的 标准 数据 类 型 













Python 中 的 标准 数据 类 型 有 6 种 : 

Number ( 数字 ): 用 来 表示 数据 的 一 些 数字 。 

String ( 字符 串 ); 用 来 表示 文本 的 一 些 字符 。 

List ( 列表 ) 用 来 表示 一 组 有 序 的 元 素 ， 后 期 还 可 以 更 改 。 

Tuple (元 组 ): 用 来 表示 一 组 有 序 的 元 素 ， 后 期 不 可 以 更 改 。 

Sets ( 集合 ): 用 来 表示 一 组 无 序 不 重复 的 元 素 。 

Dictionary (字典 ): 用 键 值 对 的 形式 保存 一 组 元 素 。 

要 想 更 有 效 地 记忆 这 些 类 型 ， 可 对 其 进行 分 类 : 

@ 用 存储 方式 来 分 类 ， 可 分 为 原子 类 型 ( 数字、 字符 囊 ) 和 容器 类 型 列表、 集合、 元 组 、 字 
典 )。 

日 按 访 问 方式 来 分 类 ， 可 分 为 直接 访问 (数字 )、 顺 序 访问 (字符 囊 、 列 表 、 集 合 、 元 组 )、 映 
射 访问 (字典 )。 
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在 Python 中 ， 一 切 尼 为 对 象 。 对 象 就 是 保存 在 内 存 中 的 一 个 数据 块 ， 我 们 有 时 候 也 会 说 创 
建 一 个 数字 对 象 、 字 符 串 对 象 。 





2.2 变 量 











变量 对 应 着 内 存 中 的 一 块 存储 位 置 。 简 单 地 说 ， 变 量 是 计算 机 存储 于 内 存 中 其 值 可 改变 的 量 。 
这 里 的 “可 改变 ”是 指 程序 运行 期 间 的 可 改变 。 

在 Python 程序 中 ， 不 需要 声明 变量 ， 但 必须 为 变量 赋值 后 才 可 以 使 用 。 比 如 其 他 语言 是 先 声 
明 再 赋值 : 

int x; 

x=200; 





而 Python 则 是 : 

x=200 

等 号 “=” 用 来 为 变量 赋值 ， 变 量 本 身 没 有 类 型 ， 为 其 赋值 200， 我 们 会 说 这 是 一 个 整 型 变量 ， 
这 里 的 “类 型 ”是 变量 所 指 的 内 存 中 对 象 的 类 型 。 

可 以 同时 为 多 个 变量 赋值 。 例 如 ， 下 面 这 3 个 整 型 变量 的 值 都 是 200。 

x=y=2=200 

也 可 以 同时 赋值 为 不 同类 型 。 例 如 ， 在 下 面 定 义 的 变量 中 ，x 和 y 为 整 型 ，z 为 字符 串 。 

xy yr 2 = 1, 2, "hello world" 

变量 的 命名 要 注意 : 

日 变量 的 首 字符 必须 是 字母 或 下 画 线 “”。 

日 其 他 部 分 由 字母 、 数 字 和 下 画 线 组 成 。 

。 变量 区 分 大 小 写 。 

变量 的 命名 不 能 取 Python 中 的 保留 字 ， 如 过、else、print 这 些 常见 的 都 是 保留 字 。 在 解释 器 中 
可 以 输入 以 下 命令 来 查看 保留 字 〈 见 图 2.1) 。 


>>> import keyword 
>>> keyword.kwlist 


其 中 ，import 用 来 引入 Python 标准 库 中 的 keyword 模块 。 

















>》 JWDOTT keyword 
>>> keyword. kwlist 
T 


Te' ，" and' ，" as' assert’, ’break’, ’class’, ’continue’, 
”, "except’, "finally 'for’, 'from’, 'global’, ’if’, 
anbda’, "nonlocal’, ’not’, ’or’, ’pass’, "raise’, ”Tet 
” ,yield ] 





图 2.1 查看 保留 字 
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2.3 数字 


Python 支持 的 数字 有 int 〈 整 型 ) 、float 〈 浮 点 型 ) 、bool (布尔 型 ) 、complex〈 复 数 型 ) 4 
种 。 本 节 分 别 介绍 这 些 数 字 类 型 。 


2.3.1 使 用 整 型 


整 型 用 来 表示 一 些 数字 ， 如 1、-10、060、0x29。 整 型 不 区 分 长 短 和 符号 ，Python 3 中 的 int 
可 以 存储 比 64 位 更 大 的 整数 。 


每 次 安装 软件 的 时 候 ， 我 们 常 在 32 位 和 64 位 之 间 做 选择 ， 这 个 位 数 就 是 处 理 数据 的 能 力 。 


64 位 是 可 以 处 理 在 2 范围 里 面 的 数据 ，32 位 是 可 以 处 理 在 23 范围 里 面 的 数据 ,但 Python 
中 的 整数 可 以 无 限 扩展 ， 它 取决 于 可 用 内 存 的 大 小 ， 并 不 受 32/64 位 的 限制 。 





使 用 整 型 有 两 种 方式 : 一 种 是 直接 赋值 为 数字 ; 另 一 种 是 使 用 int 函数 将 其 他 类 型 转换 为 整 型 。 

举例 代码 如 下 : 

numl=100 # 直 接 赋值 

varl='200， 

num2=int (varl) # 转 换 类 型 

要 赋值 多 个 整 型 ， 可 以 这 样 写 : 

numl=num2=num3=100 

读者 可 以 思考 一 个 问题 : 这 3 个 变量 的 数据 存储 在 内 存 中 是 占 3 个 数据 的 位 置 还 是 1 个 数据 
的 位 置 ? 

我 们 使 用 id 函数 打印 变量 在 内 存 中 的 位 置 ， 结 果 如 图 2.2 所 示 。 可 以 看 出 ， 其 实 3 个 变量 是 
指向 内 存 中 的 同一 位 置 。 

#inttest.py 

numl=num2=num3=100 

print (id(num1)) 


print (id(num2) ) 
Print(id(num3) ) 








15 
1593801280 
93801280 


>>> 





图 2.2 内 存 位 置 
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继续 思考 这 个 问题 ， 如 果 将 numl1、num2、num3 分 别 赋值 ， 但 赋值 相同 ， 那 是 不 是 所 占 的 
内 存 地 址 也 相同 ? 





学 习 语 言 中 ， 读 者 肯定 经 常 看 到 “表达 式 ” 这 个 概念 。 表 达 式 (Expression〉 是 将 相同 类 型 的 
数据 (如 数字 、 字 符 串 等 )， 用 运算 符号 按 一 定 的 规则 连接 起 来 的 、 有 意义 的 代码 。 这 里 有 两 点 需 

@ ”相同 类 型 的 数据 ， 比 如 1+2 可 以 ， 但 1+2' 就 不 行 。 

@ 用 运算 符 连接 ， 每 种 类 型 都 有 不 同 的 运算 符 ， 后 面 会 详细 介绍 。 


整 型 一 般 用 来 进行 一 些 表 达 式 的 运算 ， 常 见 的 整 型 运算 符 是 +、-、*、/， 可 以 使 用 如 图 2.3 所 
示 的 代码 进行 测试 。 





图 2.3 整 型 的 运算 


2.3.2 ”使 用 浮 点 型 


浮 点 型 就 是 我 们 常 说 的 带 小 数 的 类 型 ， 如 13.30、-80.16、30.2e100。 使 用 浮 点 型 有 3 种 方式 : 
赋值 、 强 制 转换 、 两 个 整 型 相 除 。 

(1) 直接 赋值 : 

numl=15.0 

(2) 使 用 float 函数 强制 转换 : 

numl=float (15) 

(3) 两 个 整 型 相 除 : 

numl=15/3 

在 第 3 种 方式 中 ， 虽 然 两 个 整 型 可 以 整除 ， 但 是 在 Python 中 依然 得 出 的 是 浮 点 型 。 下 面 用 代 
码 测试 一 下 : 


num1=15/3 
print (num1) 


输出 结果 是 5.0。 如 果 计 算 结果 要 输出 整 型 ， 则 需要 使 用 “//” 而 不 是 “/”。 以 下 代码 的 输出 
结果 就 是 5。 


num1=15//3 
print (num1) 
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2 


转 


.3.3 ”使 用 布尔 型 


布尔 型 就 是 True 或 False。 在 Python 中 ，True 的 值 是 1，False 的 值 是 0， 可 以 和 数字 相 加 ， 





此 把 它 放 在 数字 这 个 分 类 中 。 
因为 好 多 表达 式 运 算 的 结果 也 是 布尔 型 ， 所 以 使 用 布尔 型 的 方法 有 很 多 ， 这 里 我 们 简单 介绍 
几 种 。 
(1) 直接 用 一 个 关键 字 True 或 False 赋值 。 
T= True 
F= False 
print (T,F) # 输 出 为 True False 
也 可 以 将 其 用 于 数值 运算 ， 例 如 : 
T= True 
print (T+10) # 输 出 为 11 
(2) 使 用 bool 函数 。 
F=bool (0) 
Print(E) # 输 出 为 False 
(3) 表达 式 的 运算 结果 也 为 布尔 型 。 
print (1>2) # 输 出 为 False 


布尔 型 的 运算 符 有 and、or、not (必须 小 写 ) ， 读 者 还 需要 了 解 两 个 布尔 表达 式 的 运算 规则 ， 


参见 表 2.1。 


表 2.1 布尔 型 的 运算 符 


xy 只 要 有 一 个 值 为 True， 结 果 就 为 Tmue 





xy 只 要 有 一 个 值 为 False， 结 果 就 为 False 





not x 取 x 的 相反 值 
下 面 演示 布尔 运算 的 操作 : 
【示例 2-1】 


01 T= True 
02 了 = False 
03 “ #F=bool(0) 


04 print(T or F) # True 
05 print(T and F) # False 
06 print(not F) # True 





Python 3 中 这 True) 的 效率 比 不 上 1) 的 效率 。 





我 们 常用 的 表达 式 一 般 是 加 、 减 、 乘 、 除 ， 优 先 级 在 小 学 就 学 过 〈 先 加 减 后 乘除 ) 。 布 尔 运 


算 的 优先 级 低 于 表达 式 ， 读 者 可 以 测试 一 下 下 面 这 段 代码 : 
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print( 1>2 and 2<1 ) #False 


2.3.4 使 用 复数 型 


在 Python 的 数字 中 ， 复 数 complex 是 一 个 比较 复杂 的 类 型 。 从 概念 上 来 说 ， 复 数 是 一 个 实数 
和 一 个 虚数 的 组 合 。 实 数 就 是 我 们 党 说 的 1、100、350.60 等 ， 虚 数 是 一 个 虚拟 的 数 ， 数 学 家 称 之 
为 j, 广泛 用 于 科学 计算 中 。 在 Python 中 也 用 j 或 了 表示 这 个 虚数 ， 比 如 15.0j、5.16J、3.2e-6j 都 是 
复数 。 

关于 复数 有 以 下 几 个 注意 事项 : 

@ ”虚数 不 能 单独 存在 ， 必 须 和 实数 部 分 一 起 构成 一 个 复数 。 

”实数 部 分 和 虚数 部 分 都 是 浮 点 数 。 

。 虚数 部 分 必须 有 后 级 j 或 J。 


复数 的 定义 一 般 有 两 种 形式 : 

(1) 直接 赋值 。 

【示例 2-2】 

coml=15.0j 

print(type (coml)) # <class 'complex'> 

这 里 的 type 函数 用 来 输出 coml 变量 的 类 型 。 

(2) 使 用 complex 函数 ， 它 有 两 个 参数 ， 当 然 也 可 以 两 个 参数 都 不 输入 。 
【示例 2-3】 


01 coml=15.j 


02 print(complex(1)) # (1+0j) 
03 print(complex('3+5j')) # (3+5j) 
04 print(complex(3,2)) # (3+2j) 
05 print(complex()) # 0j 
06 print(coml) # 15j 


24 字符 串 


字符 串 变 量 的 定义 特别 简单 ， 直 接 赋 值 即 可 ， 例 如 : 
strl = 'Hello World! 


如 果 我 们 要 操作 字符 串 ， 比 如 拆 分 、 连 接 、 获 取 字 符 串 的 一 部 分 ， 就 需要 学 习 字 符 串 的 运算 
符 、 内 置 操作 函数 等 内 容 。 本 节 将 逐一 介绍 这 些 知 识 点 。 


2.4.1 字符 串 的 单 引 号 、 双 引号 、 三 引号 


字符 串 赋值 时 可 以 使 用 单 引号 、 双 引号 、 三 引号 形式 。 单 引号 和 双 引 号 并 没有 太 大 的 区 别 ， 
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比如 : 


strl = 'Hello World!' 
str2 = "I'm fine,and you?" 


如 果 字符 囊 中 包含 单 引号 就 要 使 用 双 引 号 进行 定义 。 





如 果 是 特别 长 的 字符 串 换 行 时 ， 单 引号 和 双 引 号 需要 加 “\” 符 号 ， 例 如 : 


strl = 'Hello \ 
World!' 

Str2 = "I'm fine,\ 
and you?" 


“符号 又 会 涉及 一 些 
str3=''' this 

is 
world "1 


这 3 种 方法 并 没有 太 大 的 区 别 ， 读 者 可 根据 实际 生产 环境 使 用 。 





守 串 的 转 义 ,为 了 更 直观 ， 特 别 长 的 字符 串 可 以 使 用 三 引号 , 例如 : 


2.4.2 ”字符 串 的 截取 


说 得 好 没有 练 得 好 ， 还 是 先 来 演练 一 下 : 
【示例 2-4】 


01 strl = 'Hello World!' 
02 str2 = "I'm fine,and you?" 

03 

04 print ("strl 原文 : "，strl) 

05 print ("str2 原文 : "，str2) 

06 

07 print ("1.strl[1]: ", str1[1]) 

08 print ("2.strl[2:5]: ", strl[2:5]) 
09 print ("3.strl[-2:1]: ", str1l[-2:1]) 
10 print ("4.strl[5:5]: ", str1l[5:5]) 
3 

12 print ("1.str2[0]: ", str2[0]) 

3 Dramt m2 St er S25) 

14 Print (m3. tr2 0 "etr2 6 

23 print ("4. seatr2t-21} 
16 print ("5. sstr2l:=21) 


以 上 执行 结果 如 图 2.4 所 示 。 
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=== RESTART: D:\strsub. py ====== 





.stzl[2:5]: 11o 
,Strl[=2: 1]: 

. str1[5: 5]: 
.str2[0]: I 


.str2[6:]: ne,and you? 
stra[=2:1; ur 
.str2[:-2]: I’m fine, and yo 


1 

2. 

3 

4 

1 

tra] 工 症 时 
3 

4 

5 

>>>1 











图 2.4 字符 串 的 截取 


代码 定义 了 两 个 字符 串 strl 和 str2， 并 分 别 对 它们 进行 了 不 同形 式 的 字符 串 截 取 操作 。strl 有 
4 个 操作 : 
strl[1]， 表 示 截 取 第 几 个 字符 ， 这 个 编号 从 0 开始 ，0 表示 第 1 个 字符 ，1 表示 第 2 个 字符 。 
str1[2:5]， 表 示 截 取 从 第 1 个 参数 开始 到 第 2 个 参数 前 一 位 的 字符 。 注意 ， 这 是 从 第 几 位 到 第 
几 位 ， 并 不 是 从 第 2 位 截取 长 度 为 5 的 字符 。 
@ strl[-2:1]， 从 输出 结果 看 这 个 并 没有 输出 任何 字符 。-2 表示 从 倒数 第 2 位 开始 选择 ， 这 里 要 
注意 倒数 开始 的 时 候 编号 不 是 从 0 开始 的 。 
e@ strl[5:5]， 没 有 输出 任何 结果 。 第 1 个 参数 的 值 必须 小 于 第 2 个 参数 。 
str2 有 5 个 操作 : 
str2[0]， 表 示 堆 取 第 1 个 字符 。 
str2[:5]， 第 1 个 参数 为 空 ， 表 示 从 头 开 始 截取 。 
str2[6:]， 第 2 个 参数 为 空 ， 表示 截取 到 字符 囊 的 最 后 。 
str2[-2:]， 表 示 从 倒数 第 2 个 开始 截取 ， 一 直到 字符 串 的 最 后 。 
str2[:-2]， 表 示 从 头 开 始 截取 ， 一 直到 倒数 第 2 位 。 





这 种 截取 部 分 数据 的 功能 有 一 个 专门 的 概念 ， 叫 切片 (Slice )。 从 倒数 开始 截取 数据 的 功能 


也 叫 倒数 切片 。 大 部 分 语言 的 字符 串 操作 都 支持 切片 功能 ，Python 中 很 多 数据 类 型 都 支持 
切片 。 





2.4.3 字符 串 的 拼接 


字符 串 的 拼接 有 3 种 方法 : + 符号 、join 函数 和 格式 化 拼接 。 
(1) 使 用 + 符号 拼接 比较 简单 ， 代 码 如 下 : 


【示例 2-5】 
01 strl = 'Hello' 
02 str2 = "Python" 


031 ‘atr3 em wl 
04 strjoinl=strlt" "tstr2+" "+str3 
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05 print ("1.+ 拼 接 : "，strjoinl1) 填 1.+ 拼 接 : Hello Python ! 


因为 使 用 + 符号 拼接 后 的 字符 串 需 要 划 定 新 的 内 存 空间 来 存储 ， 所 以 普遍 认为 这 种 拼接 方式 效 
率 低 ， 尤 其 是 越 多 的 字符 串 拼 接 效率 就 越 低 。 
(2) 使 用 join 函数 拼接 则 稍 显 复杂 ， 函 数 语法 如 下 


str.join(sequence) 


sequence 是 要 拼接 的 字符 串 序列 ，str 是 拼接 需要 使 用 的 字符 ， 如 空格 、 逗 号 等 。 因 此 ， 在 使 
用 该 函数 时 要 定义 两 个 变量 ， 举 例如 下 : 

【示例 2-6】 

01 strq=('Hello','Python’','!') 

02 strflag=" " 

03 strjoin2=strflag.join(strq) 

04 print ("2.join 拼接 : "，strjoin2) # 2.join 拼接 : Hello Python ! 

(3) 格式 化 拼接 需要 用 到 格式 化 符号 ， 我 们 在 这 里 先 举例 ， 具 体格 式 化 符号 的 使 用 ， 后 面 会 
详细 介绍 。%s 表示 需要 字符 串 参 数 ， 中 间 的 % 表 示 这 是 一 段 格式 化 输出 ， 后 面 的 参数 用 括号 封闭 ， 
用 逗号 间隔 。 

【示例 2-7】 

01 strl = 'Hello' 

02 str2 = "Python" 

03” str3 nm i" 


04 strjoin3='%s %s %s' % (strl,str2,str3) 
05 print ("3. 格 式 化 拼接 : "，strjoin3) # 3. 格 式 化 拼接 : Hello Python ! 





2.4.4 字符 串 的 各 种 常用 运算 符 


前 面 学 习 过 数字 运算 符 有 +、-、* 、/ 等 ， 字 符 串 也 是 有 运算 符 的 ， 不 过 不 是 加 减 乘除 ， 而 是 一 
些 针对 字符 串 操作 的 符号 ， 如 前 面 介绍 过 的 +、[]、[] 都 是 字符 串 的 运算 符 。 常 用 的 字符 串 运算 符 
参见 表 2.2。 


表 2.2 字符 串 常用 运算 符 



































符号 说 明 

击 字符 串 拼接 

过 重复 输出 字符 串 ， 加 入 str='hello， 如 果 是 sr*3， 就 表示 输出 3 次 hello 

0 通过 索引 获取 字符 串 中 字符 

[:] 截取 字符 串 中 的 一 部 分 

in 如 果 字 符 串 中 包含 给 定 的 字符 ， 就 返回 Te， 如 'H' in strl 返回 Tme 

not in 如 果 字 符 串 中 不 包含 给 定 的 字符 ， 就 返回 Tue， 如 'H' not in strl 返回 False 

IIR《〈 大 小 写 都 可 以 ) 所 有 的 字符 串 都 是 直接 按照 字面 的 意思 使 用 ， 没 有 转 义 特殊 或 不 能 打印 的 字符 。 
使 用 方法 是 在 字符 串 的 第 一 个 引号 前 加 上 字母 "r" 

%s 格式 字符 串 





这 里 要 特别 讲解 一 下 r 的 使 用 ， 字 符 串 有 很 多 转 义 符号 ， 如 表示 换行 、 表示 回 车 ， 如 果 我 
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们 要 在 字符 串 中 显示 wm， 而 不 是 当 作 换 行使 用 ， 此 时 就 需要 在 字符 串 前 添加 r， 比 如 : 
print (r" 这 里 介绍 \n 的 使 用 ") 
print ("这 里 介绍 \n 的 使 用 ") 
这 两 行 的 输出 结果 如 图 2.5 所 示 ， 其 中 第 2 个 输出 中 有 换行 操作 。 








图 25 有 转 义 和 没有 转 义 的 对 比 
2.4.5 字符 串 的 转 义 


字符 串 中 的 转 义 就 是 说 字符 本 身 并 不 是 它 原来 的 字面 意思 .字符 串 的 转 义 符号 都 是 以 \ 开 头 的 ， 
常用 的 转 义 符号 参见 表 2.3。 




















表 2.3 转 义 符号 
字符 说 明 
\( 用 在 字符 串 的 行 尾 ) 表示 下 一 行 和 当前 行 是 同一 行 
\ \ 符 号 本 身 
\ 单 引号 
Ww 双 引 号 
un 换行 
Ww 纵向 制 表 符 
Vt 横向 制 表 符 
Yr 回 车 
¥ 换 页 
\b 退 格 (Backspace 键 ) 
\Onn 八进制 数 nn 代表 的 字符 ， 如 \012 代表 换行 
nn 十 六 进 制 数 nn 代表 的 字符 ， 如 Wwx0A 代表 换行 
注 意 


八进制 是 \0 ( 零 )， 不 是 字母 o。 


这 里 要 特别 说 明 一 下 0 和 \x， 它 们 后 面 跟 的 是 代表 某 个 字符 的 数据 ， 而 这 个 数据 来 自 ASCII 
码 表 ， 如 图 2.6 所 示 是 部 分 表 2.3 的 内 容 ， 圈 出 的 位 置 就 是 表 2.3 中 的 换行 符 ， 比 如 \010 代表 退 格 
键 ，\x0D 代表 回 车 键 。 
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Oct 改进 ”Dect 十 Hex( 十 

| 六 寺 二 和 生生 
0000 0000 0 0 00 NUL(null) 空 字符 
0000 0001 1 01 SOH(start of headline) 标题 开始 
0000 0010 3 2 02 STX (start of text) 正文 开始 
0000 0011 3 3 03 ETX (end of text) 正文 结束 
0000 0100 4 4 04 EOT (end of transmission) 传输 结束 
0000 0101 5 5 05 ENQ (enquiry) 请 求 
0000 0110 6 6 06 ACK (acknowledge) 收 到 通知 
0000 0111 7 7 07 BEL (bel) 响 铃 
0000 1000 10 8 08 BS (backspace) 退 格 
0000 1001 11 9 09 HT (horizontal tab) 水 平 制 表 符 
0000 1010 12 10 0A LF (NL line feed, new line) 
0000 1011 13 11 0B VT (vertical tab) 各 直 制 表 符 
0000 1100 14 12 0C FF (NP form feed, new page) 换 页 键 
0000 1101 15 13 0D CR (carriage return) 回 车 键 





2.6 ASCI 码 表 


我 们 来 看 一 个 例子 。 


【示例 2-8】 

01 print (“" 这 里 仅 输出 斜 杠 \\") 

02 ”print ( "这 里 是 Tab 缩 进 "+"\t"+" 的 距离 ") 
03 ”print ( "这 里 介绍 换行 \n 的 使 用 ") 

04 ”print ( "这 里 介绍 换行 \012 的 使 用 ") 

05 ”print ("这 里 介绍 换行 \x0A 的 使 用 ") 

06 ”print ( r" 这 里 仅 输出 \t\r") 





图 2.7 各 种 转 义 符号 的 使 用 





2.4.6 ”字符 串 的 格式 化 符号 


在 日 常 开发 中 ， 使 用 print 函数 经 常会 用 到 字符 串 的 格式 化 符号 ， 如 果 要 输出 一 个 字符 串 ， 就 
用 %s; 如 果 要 输出 一 个 整数 ， 就 用 %d。 常 见 的 格式 化 符号 参见 表 2.4。 
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表 2.4 格式 化 符号 
格式 化 符号 说 明 
%c 格式 化 字符 及 其 ASCI 码 
%s 格式 化 字符 串 
%d 格式 化 整数 
%u 格式 化 无 符号 整 型 
%o 格式 化 无 符号 八进制 数 
%x 格式 化 无 符号 十 六 进 制 数 
%X 格式 化 无 符号 十 六 进 制 数 〈 大 写 ) 
%f 格式 化 浮 点 数字 ， 可 指定 小 数 点 后 的 精度 
%e 用 科学 计数 法 格式 化 浮 点 数 
%E 作用 同 %e， 用 科学 计数 法 格式 化 浮 点 数 
用 十 六 进 制 数 格式 化 变量 的 地 址 











我 们 可 以 把 格式 化 字符 串 想象 成 带 有 几 个 填空 项 的 模板 。 比 如 : 


_ ”的 数据 成 绩 是 

第 一 个 填空 项 是 人 名 (字符 串 ) ， 第 二 个 填空 项 是 分 数 〈 整 数 ) ， 在 代码 中 就 是 : 

$s 的 数据 成 绩 是 sd 

输出 后 的 内 容 与 模板 一 模 一 样 ， 只 将 填空 的 内 容 填 上 即 可 。 下 面 在 代码 中 输入 填空 项 : 
Print( "'%s 的 数据 成 绩 是 sda'%(' 王丽华 ', 98) ) # 王丽华 的 数据 成 绩 是 98 


在 模板 和 具体 内 容 之 间 有 一 个 %, 表示 这 是 一 个 格式 化 操作 。 具 体 填写 的 内 容 用 括号 封闭 起 来 ， 
多 个 参数 之 间 用 逗号 间隔 。 如 果 只 有 一 个 参数 ， 就 可 以 省 略 括号 。 

我 们 还 可 以 在 格式 化 符号 前 添加 几 类 符号 : 

@”-， 左 对 齐 标志 ， 默 认为 右 对 齐 。 

@ +， 表示 应 该 包含 数字 的 正 负 号 。 

@ ” 0， 表示 用 0 填充 。 


下 面 再 看 一 段 代码 : 

【示例 2-9】 

01 ”print ('%5s 的 数据 成 绩 是 803d'% ( "王丽华 '， 98) ) 

02 print('%-5s 的 数据 成 绩 是 s03d"s ('" 王 丽华 ',98)) 

03 “print ( "今天 的 温度 是 s+3d's+30) 

04 ”print (“' 今 天 的 温度 是 $3d'%+30) 

输出 结果 如 图 2.8 所 示 。 在 第 1 行 的 输出 中 ，%5s 表示 字符 串 长 度 为 5， 但 因为 给 出 的 参数 只 
有 3 位 ， 所 以 前 面 补充 了 两 个 空格 进行 输出 (默认 用 空格 填充 ) ; %03d 表示 长 度 为 3 的 整数 ， 长 
度 不 够 时 前 面 用 0 填充， 输出 的 是 098。 默 认 情况 下 ， 数 值 的 + 号 是 不 输出 的 ， 但 如 果 使 用 + 这 个 符 
号 ， 则 正 负 号 都 会 输出 。 
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============ RESTART: D:/strformat. py ======= 








王丽华 多 是 098 
王丽华 的 098 
邻 天 的 温度 
今天 的 温度 
>>> | 
图 2.8 格式 化 输出 
除了 各 种 符号 外 ，Python 也 提供 了 一 个 格式 化 函数 format。 它 通过 “{}” 和 “:” 代 替 传 统 % 


操作 。format 函数 的 特色 就 是 可 以 接受 无 限 个 参数 ， 而 且 位 置 可 以 不 按 模板 的 顺序 ， 这 和 我 们 前 面 
所 说 的 填空 的 例子 略 有 不 同 。 

【示例 2-10】 

01 ”print ( '{} 的 数据 成 绩 是 {}' .format (' 王 丽华 ', 98)) 

02 ”print ('{0}、{1} 的 数据 成 绩 都 是 {2}' .format (' 王 丽华 ',' 刘 晓 娜 ', 98) ) 

03 ”print ( ，{0} 的 数据 成 绩 是 {2}，{1} 的 数据 成 绩 是 {2}' . format (' 王 丽华 ',' 刘 晓 娜 ', 98) ) 

这 里 用 “{}” 表 示 模 板 中 每 个 填空 的 位 置 ， 如 果 不 按 固 定 的 顺序 ， 就 可 以 按 {0} 指 定 顺 序 ， 如 
第 3 行 代码 的 {2} 使 用 了 两 次 ， 也 就 是 第 3 个 参数 被 调用 两 次 。 

“人 和” 和“:” 的 组 合 通常 用 于 数值 的 格式 化 ， 表 2.5 是 一 些 通用 的 格式 化 写法 。 


表 2.5 格式 化 写法 





格式 

保留 小 数 点 后 两 位 ， 如 print("{:.2f}".format(3.1415926)) 最 后 输出 的 是 3.14 
保留 小 数 点 后 两 位 ， 保 留 正 负 号 

保留 整数 ， 不 带 小 数位 






指定 长 度 为 2， 不够 时 左边 填充 0 
指定 长 度 为 2， 不 够 时 右边 填充 0 


下 面 是 一 段 代码 : 

【示例 2-11】 
print("{:.2f}".format (3.1415926)) 
01 print("{:+.2f}".format (3.1415926)) 
02 print("{:.0f}".format(3.1415926)) 
03 print("{:0>3d}".format (30)) 
04 print("{:0<3d}".format (30)) 


输出 结果 如 图 2.9 所 示 。 





3.14 
+3.14 
3 

030 
300 
>>> | 





2.9 格式 化 数字 


第 2 章 ”Python 中 的 数据 与 结构 | 37 





2.4.7 ”字符 串 的 内 置 函 数 


函数 的 使 用 想必 读者 已 经 不 再 陌生 ， 前 面 也 介绍 过 join 拼接 字符 串 、format 格式 化 字符 串 等 
函数 。 常 用 的 字符 串 内 置 函 数 还 包括 表 2.6 所 示 的 这 些 。 








表 2.6 ”内置 函 数 
函数 说 明 
capitalizeO 将 字符 串 的 首 字母 转换 为 大 写 





center(width, fillchar) 


count(str, start= 0,end=len(string)) 


返回 一 个 指定 的 宽度 width 居中 的 字符 串 ，fillchar 为 填充 的 字符 ， 
默认 为 空格 

返回 str 在 string 里 面 出 现 的 次 数 , 如果 start 或 end 指定 , 就 返回 指 
定 范围 内 出 现 的 次 数 





encode(encoding='"UTF-8',errors='strict’) 


endswith(obj, start=0, end=len(string)) 


expandtabs(tabsize=8) 
find(str, start=0 end=len(string)) 


index(str, start=0, end=len(string)) 


isalnum() 


以 encoding 指定 的 编码 格式 编码 字符 串 ， 如 果 出 错 默 认 报 一 个 
那么 errors 还 可 以 指定 ignore (忽略 ) 或 replace 


ValueError 的 异常 ， 
(替换 指定 内 容 》 
字符 串 是 否 以 obj 结束 ， 如 果 start 或 end 指定 ， 就 检查 指定 的 范围 

内 是 否 以 obj 结束 ， 如 果 是 ， 返 回 True， 否 则 返回 False 

把 字符 串 string 中 的 tab 符号 转 为 空格 ，tab 符号 默认 的 空格 数 是 8 
检测 str 是 否 包含 在 字符 串 中 ， 如 果 指 定 范围 start 和 end， 就 检查 是 否 
包含 在 指定 范围 内 ， 如 果 包含 ， 就 返回 开始 的 索引 值 ， 否 则 返回 -1 

跟 find() 方 法 一 样 ， 只 不 过 str 不 在 字符 串 中 时 会 报错 

如 果 字符 串 至 少 有 一 个 字符 并 且 所 有 字符 都 是 字母 或 数字 ， 就 返回 
Tme， 和 否则 返回 False 



























































isalpha() 如 果 字 符 串 至 少 有 一 个 字符 并 且 所 有 字符 都 是 字母 ， 就 返回 True， 
否则 返回 False 

isdigit) 

islower0) 如 果 字 符 串 中 包含 至 少 一 个 区 分 大 小 写 的 字符 ， 并 且 所 有 这 些 〈 区 
分 大 小 写 的 ) 字符 都 是 小 写 ， 就 返回 Tue， 否 则 返回 False 

isnumeric() 如 果 字 符 串 中 只 包含 数字 字符 ， 就 返回 True， 否 则 返回 False 

isspace() 如 果 字 符 串 中 只 包含 空白 ， 就 返回 True， 否 则 返回 False 

istitle0) 如 果 字 符 串 是 “标题 化 ”的 ， 就 返回 True， 和 否则 返回 False 

isupper() 如 果 字 符 串 中 包含 至 少 一 个 区 分 大 小 写 的 字符 ， 并 且 所 有 这 些 〈 区 
分 大 小 写 的 ) 字符 都 是 大 写 ， 就 返回 Tue， 和 否则 返回 False 

isdecimal0) 检查 字符 串 是 否 只 包含 十 进 制 字符 ， 如 果 是 ， 就 返回 True， 否 则 返 
回 False 

len(string) 返回 字符 串 的 长 度 





ljust(width[, fillchar]) 


返回 一 个 原 字 符 串 左 对 齐 ， 并 使 用 fillchar 填充 至 长 度 width 的 新 字 
符 串 ，fillchar 默认 为 空格 

















lower) 转换 字符 串 中 所 有 大 写字 符 为 小 写 
Istrip([chars]) 删除 字符 串 左 侧 的 空格 或 指定 的 字符 
max(str) 返回 字符 串 str 中 最 大 的 字母 
min(str) 返回 字符 串 str 中 最 小 的 字母 





38 | 


Python 3.6 零 基 础 入 门 与 实战 





( 续 表 ) 





函数 
Treplace(old, new [, max]) 


把 字符 串 中 的 old 替换 成 new， 如 果 指定 max， 就 替换 不 超过 max 
次 





Tfind(str, start=0,end=len(string)) 


类 似 于 find0 〇 函数 ， 从 右边 开始 查找 





rindex( str, start=0, end=len(string)) 


类 似 于 index0 函 数 ， 从 右边 开始 查找 





tjust(width,l, fillchar]) 


返回 一 个 原 字符 串 右 对 齐 ， 并 使 用 fillchar (默认 空格 》 填 充 至 长 度 
width 的 新 字符 串 





rstrip([chars]) 
split(str="", num=string.count(str)) 


删除 字符 串 右 侧 的 空格 或 指定 的 字符 
以 str 为 分 隔 符 截取 字符 串 ， 如 果 num 有 指定 值 ， 则 仅 截取 num 个 
子 字符 串 





splitlines([keepends]) 


startswith(obj, start=0,end=len(string)) 
strip([chars]) 
swapcase() 


title() 


translate(table, deletechars="") 





zfill (width) 


按照 行 “\r，"rn'，\n') 分 隔 ， 返 回 一 个 包含 各 行 作为 元 素 的 列表 ， 
如 果 参 数 keepends 为 False， 不 包含 换行 符 ， 如 果 为 Tue， 则 保留 
换行 符 

检查 字符 串 是 否 以 obj 开头， 是 就 返回 True， 和 否则 返回 False。 如 果 
start 和 end 指定 值 ， 就 在 指定 范围 内 检查 

返回 "标题 化 "的 字符 串 ， 就 是 说 所 有 单词 都 是 以 大 写 开始 ， 其 余 字 
母 均 为 小 写 

根据 table 给 出 的 翻译 表 (包含 256 个 字符 ) 转换 string 的 字符 ， 要 
过 滤 掉 的 字符 放 到 deletechars 参数 中 


返回 长 度 为 width 的 字符 串 ， 原 字符 串 右 对 齐 ， 前 面 填充 0 

















这 里 要 特别 说 明 的 是 translate 函数 , 它 需 要 一 个 table 参数 ,这 个 table 一 般 称 为 翻译 表 或 转换 
表 。 比 如 根据 最 新 广告 法 规定 ， 不 允许 使 用 “最 好 的 ”“ 最 厉害 的 ”这 类 用 语 ， 还 有 网 站 也 经 常 需 
要 过 滤 一 些 不 文明 用 语 ， 这 时 候 就 可 以 制作 一 个 翻译 表 ， 比 如 将 “最 ”替换 为 “* ”。 翻 译 表 使 用 
maketrans 函数 制作 ， 下 面 给 一 个 详细 的 例子 : 


【示例 2-12】 


01 intab = "最 " 
02 outtab = "xn 


03 trantab = str.maketrans(intab, outtab) 

04 ”str1=" 这 是 最 好 的 一 次 体验 。" 

05 print (strl.translate(trantab) ) 

上 述 代码 输出 结果 如 图 2.10 所 示 。 首 先 使 用 maketrans 函数 制作 一 个 翻译 表 (“ 最 ”翻译 为 “*”)， 
然后 使 用 translate 函数 输出 翻译 后 的 字符 串 。 





RESTART: D: /strfun.py ====: 








图 2.10 翻译 表 
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2.5 列表 


列表 表示 一 组 有 序 的 元 素 ， 比 如 每 个 学 生 有 学 号 、 姓 名 、 性 别 这 3 个 属性 ， 我 们 就 可 以 把 这 3 
个 属性 放 在 一 个 列表 中 。Python 中 的 列表 类 似 其 他 语言 的 数组 ， 细 节 上 有 所 不 同 ， 但 存储 概念 上 
类 似 。 本 节 将 介绍 列表 的 使 用 。 


2.5.1 使 用 列表 


1. 普通 定义 

列表 使 用 [] 闭 合 定义 ， 比 如 一 个 学 生 列 表 : 
stul=['10001',' 张 晓 光 ', ' 男 '] 

也 可 以 定义 一 个 成 绩 列表 ， 全 部 是 数字 : 
scorel=[45, 68, 98] 


列表 中 的 元 素 可 以 是 任意 数据 类 型 ， 也 可 以 多 种 数据 类 型 混合 使 用 ， 给 学 生 列 表 添 加 年 龄 属 


stul=['10001',' 张 晓 光 ', ' 男 ' ,20] 
列表 也 可 以 初期 定义 为 空 ， 然 后 使 用 列表 的 append 函数 向 其 追加 元 素 ， 该 函数 只 能 包括 一 个 


stul=[] 
stul.append(' 张 晓 光 ') 


相信 很 多 读者 听 说 过 二 维 数 组 ， 就 是 数组 的 元 素 也 是 数组 。 同 理 ， 列 表 的 元 素 也 可 以 是 列表 ， 
我 们 也 可 以 称 之 为 二 维 列表 。 它 使 用 [0,0, 中 这 种 方式 ， 下 面 创建 3 条 学 生 信 息 : 

stul=[['10001',' 张 晓 光 ', ' 男 ', 20] , ['10002', ' 李 淑 霞 ',' 女 ',21] , ['10003', ' 王 心智 ', ' 男 ', 19]] 

也 可 以 看 起 来 更 直接 一 些 : 


stul=[ 
["'10001',' 张 晓 光 ' , ' 男 ',20] ， 
['10002',' 李 淑 霞 ',' 女 ',21]， 
['10003', ' 王 心智 ', ' 男 ', 19] 
I 


要 访问 第 2 个 学 生 的 年 龄 ， 可 以 使 用 stul[1][3]， 第 1 个 [] 表 示 访 问 第 几 行 ， 第 2 个 [] 表 示 访 问 
第 几 列 ， 也 就 是 使 用 stul[row][col] 来 访问 二 维 列表 中 的 元 素 。 
2. 快速 定义 


列表 还 可 以 使 用 快速 定义 的 方式 : 


stul=[0]*width 
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0 是 默认 的 内 容 ，width 是 个 数 ， 比 如 要 定义 4 个 元 素 的 列表 : 
stul=[0]*4 

创建 学 生 列 表 ， 然 后 逐个 赋值 : 

【示例 2-13】 

01 stul=[0]*4 


02 ”print (" 学 生 : ', stul) 


04 stul[0]="'10001' 
05 stul[1]=' 张 晓 光 ' 

06 stul[2]=' 男 ' 

07 stul[3]=20 

08 ”print(' 学 生 : ', stul) 

输出 结果 为 : 

学 生 : [0，0，0，0] 

学 生 : ['10001'，' 张 晓 光 ' ，' 男 '，20] 

那么 ， 二 维 列表 是 否 也 可 以 这 样 快速 定义 呢 ? 

先 来 快速 定义 一 个 3 行 4 列 的 列表 ， 然 后 给 第 1 行 第 1 列 赋值 '10001": 
【示例 2-14】 


01 stul=[[0]*3]*4 
02 stul[0][0]="'10001' 
03 print(' 学 生 : ', stul) 


我 们 会 以 为 输出 结果 只 是 第 1 行 第 1 列 的 值 改变 了 ， 但 输出 结果 却 是 : 
学 生 ， [['10001'，0, 0],['10001', 0, 0], ['10001', 0, 0], ['10001', 0, 0]] 


第 1 列 的 结果 全 部 改变 了 。 因 为 [0] 是 一 个 含有 一 个 空 列表 元 素 的 列表 ，[[]]*4 表示 4 个 指向 


这 个 空 列表 元 素 的 引用 ， 所 以 修改 任何 一 个 元 素 都 会 改变 整个 列表 。 


那 如 何 快速 定义 二 维 列表 呢 ? 
【示例 2-15】 


01 stul=[([0] * 3) for i in range(4)] 
02 stul[0][0]="'10001' 
03 print(' 学 生 : ', stul) 


此 时 输出 结果 如 下 ， 正 是 我 们 需要 的 结果 。 
学 生 ， [['10001', 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]] 


这 是 通过 一 种 循环 的 方式 创建 二 维 列 表 ， 相 信 读 者 学 完 for...in 语句 后 会 有 更 深 的 感悟 。 


2.5.2 ”访问 列表 


使 用 列表 后 ， 经 常 需 要 访问 其 中 的 某 一 个 元 素 ，Python 中 直接 用 索引 访问 ， 索 引 从 0 开始 ， 


负数 表示 从 倒数 的 位 置 开 始 。 比 如 访问 第 1 个 元 素 ， 用 [0]， 访 问 倒 数 第 1 个 元 素 ， 用 [-]1]: 


stul=["10001',' 张 晓 光 ', ' 男 ' ,20] 
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Print( "学生 学 号 : ss， 学 生年 龄 : sd"s (stul[0] ,stul[-1])) 


# 学 生 学 号 : 10001， 学 生年 龄 : 20 


如 果 要 访问 部 分 元 素 ， 可 以 使 用 [start:end] 切 片 形 式 ， 从 start 位 置 开始 访问 ， 一 直到 end 位 置 


之 前 ， 比 如 [1:3] 就 是 访问 第 2 个 元 素 到 第 4 个 元 素 之 前 ， 就 是 2、3 两 个 元 素 。 


stul=['10001', ' 张 晓 光 ', ' 男 ' ,20] 
print(' 学 生 : ', stul [1:3]) 


# 学 生 :，[' 张 晓 光 '。' 男 '] 


2.5.3 ”列表 常用 的 内 置 函数 


Python 为 列表 提供 了 一 系列 函数 ， 如 追加 、 插 入 、 排 序 、 移 除 等 ， 常 见 的 函数 参见 表 2.7。 


表 2.7 列表 常用 的 内 置 函 数 








还 是 使 用 前 面 创建 的 列表 stu1， 下 面 演 示 几 个 函数 的 使 用 : 
【示例 2-16】 


01 stul=['10001', ' 张 晓 光 ', ' 男 ' ,20] ; 
02 print(' 学 生 : ', stul) 


04 ”村 .追加 城市 
05 stul.append(' 上 海 ') 
06 print('1.',stul) 


08 ”#2. 追 加 另 一 个 列表 

09 stu2=['10002'，, ' 李 淑 起 ', ' 女 ' ,21,' 上海 '] 
10 stul.extend(stu2) 

11 print('2.',stul) 


13 “#3 .上 海 在 列表 中 出 现 的 次 数 
14 print('3.',stul.count(' 上 海 ')) 


i 

16 ”# .获取 位 置 

17 print ('4.',stul.index(' 李 淑 息 ')) 
18 


19 #5. 插入 开头 


名 称 说 明 

list.append() 追加 

list.count(x) 计算 列表 中 参数 x 出 现 的 次 数 

list.extend(L) 向 列表 中 追加 另 一 个 列表 

list.index(x) 获得 参数 x 在 列表 中 的 位 置 

list.insert(x,y) 向 列表 中 的 x 位置 插入 数据 y 

list.pop([index]) 删除 列表 中 index 位 置 的 元 素 (通过 下 标 删 除 ) 
list.remove(x) 删除 列表 中 的 指定 元 素 x〈 直 接 删 除 ) 
list.reverse() 将 列表 中 元 素 的 顺序 颠倒 

list.sort() 将 列表 中 的 元 素 进行 排序 
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20 ”stul.insert (0, "学 生 信息 : ') 
21 print('5.',stul) 


23 ”#6.pop 移 除 

24 stul.pop(0) 

25 #stul.pop() 

26 #stul.pop(-1) 

27 print('6.',stul) 


29 #7.remove 移 除 
30 ”stul.remove (' 上 海 ') 
31 print('7.',stul) 


33 #8.reverse 反 转 
34 stul.reverse() 
35 print('8.',stul) 


37 ”#9.sort 排序 
38 stul.sort() 
39 print('9.',stul) 


上 述 代 码 的 输出 结果 如 图 2.11 所 示 


全 T0001 
10001’ 1 于 眩 间 了 
"10001 ，' 张 晓 光 ”， 


,党 告 信息 : ”， "10001” ， “ 张 晓 光 下 " 男 "，20，" 上 海 ' ，* 10002' ，" 李 淑 霞 "，' 女 ” 
张 晓 光 " ， . | 


, 册 ? 0， "上海" ，! 
,10001' ， a 20,，10002 ， 21 " 上 ¥ 
“上当 ' 李 淑 恩 "，* 10002'，20，* 男 '，， 光 ",， "10001] 
raceback 3 i call last) 
File “D:/listl.py”, line 69, in nodule> 
stul. sort () 
TypeError: < not supported between instances of "int”and ”str” 
>>> 





图 2.11 列表 函数 应 用 
这 里 有 几 点 要 特别 说 明 : 


(1) 使 用 pop 移 除 元 素 时 ， 指 定 的 索引 可 以 为 室 ， 也 可 以 为 正 负数 。 为 空 时 ， 是 移 除 列表 最 
后 的 元 素 ;为 负数 时 ， 是 从 倒数 位 置 移 除 指定 的 元 素 。 

(2) 追加 另 一 个 列表 时 ， 追 加 的 内 容 并 不 会 与 原 列表 组 成 二 维 列表 ， 而 是 在 原 列表 中 追加 一 
些 元 素 ， 因 此 获取 位 置 时 出 现 的 是 6， 而 不 是 stul0D 这 种 形式 。 

(3) 使 用 sort 函数 时 出 现 了 如 下 错误 ， 因 为 列表 中 元 素 的 类 型 不 限定 ， 本 例 中 包含 了 字符 串 
和 数字 ， 所 以 这 里 出 现 运行 错误 。 


stul.sort () 
TypeError: '<' not supported between instances of 'int' and 'str' 


要 了 解 这 个 错误 ， 笔 者 把 sort 函数 单独 列 出 来 介绍 ， 继 续 下 一 节 。 
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2.5.4 ”列表 排序 


在 Python 中 ， 排 序 使 用 sort， 语 法 如 下 ， 这 两 个 参数 都 是 可 选 的 。 


sort (key=None, reverse=False) 
1. 普通 排序 升序 或 降序 ) 


如 果 列 表 中 的 元 素 是 统一 的 单一 数据 类 型 ， 就 直接 使 用 sort)， 默 认 升序 。 例 如 : 
【示例 2-17】 
01 stul=['10001', ' 男 ', ' 张 晓 光 ']; 


02 stul.sort() 
03 print(' 学 生 : ', stul) # 学 生 : 。['10001'，' 张 晓 光 ' ，' 男 '] 


05 scorel=[80,100,98,59] 

06 scorel.sort(); 

07 “print (' 成 绩 : ' ,scorel1) # 成 绩 : [59，80，98，100] 

默认 为 升序 ， 要 是 使 用 降序 呢 ? sort 函数 中 有 一 个 reverse 参数 ， 将 其 设置 为 True， 就 可 以 实 
现 降序 : 

【示例 2-18】 

01 stul=['10001', ' 男 ', ' 张 晓 光 ' ]; 

02 stul.sort (reverse=True) 

03 print(' 学 生 : ', stul) # 学 生 : 【[' 男 '，' 张 晓 光 '，"'10001'] 


05 scorel=[80,100,98,59] 
06 scorel.sort (reverse=True); 
07 ”print (' 成 绩 : ' ,scorel) # 成 绩 : [100，98，80，59] 


2. 副本 排序 

如 果 要 排序 ， 但 并 不 修改 原来 的 内 存 位 置 ， 这 个 时 候 就 要 用 到 副本 排序 。 先 来 看 一 段 代码 : 

【示例 2-19】 

01 scorel=[80,100,98,59] 

02 score2=scorel 

03 score2.sort() 

04 ”print (' 成 绩 : ', score2) 

05 print (' 位 置 : ', id (scorel1),id(score2)) 

输出 结果 : 

成 绩 1: [59，80，98，100] 

成 绩 2: [59，80，98，100] 

位 置 : 2134350122056 2134350122056 

如 果 直接 使 用 赋值 的 方式 创建 一 个 副本 ， 发 现 两 者 的 存储 位 置 一 致 ， 都 进行 了 排序 ， 这 个 时 
候 并 不 能 实现 真正 的 副本 排序 。 我 们 需要 用 切片 方式 [ : ] 进 行 赋值 : 

【示例 2-20】 

01 scorel=[80,100,98,59] 


02 score2=scorel[:] 
03 score2.sort() 
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04 ”print (' 成 绩 1: 'vscorel) 
05 print(' 成 绩 2: ' ,score2) 
06 ”print(' 位 置 : ,id(scorel) ,id(score2) ) 


输出 结果 如 下 : 


成 绩 1: [80，100，98，59] 
成 绩 2: [59,，80,，98，100] 
位 置 : 2948369107848 2948359917512 


可 以 看 到 scorel 并 没有 被 排序 ， 而 且 两 者 的 位 置 也 不 相同 。 
3. 复杂 排序 


sort 函数 中 有 一 个 key 参数 ， 用 于 定义 排序 过 程 中 调用 的 函数 。key 是 带 一 个 参数 的 函数 ， 用 
于 为 每 个 元 素 提取 比较 值 ， 默 认为 None， 即 直接 比较 每 个 元 素 。 比 如 要 通过 列表 中 元 素 的 长 度 进 
行 排序 : 

stul=['10001', ' 男 ',' 张 晓 光 ' ] ; 

stul .sort (key=len) 

Print (" 学 生 : ', stul1) 考 学 生 : [' 男 '，' 张 晓 光 '，'10001'] 

key 指定 的 函数 只 能 有 一 个 输入 参数 ， 也 只 能 有 一 个 返回 值 。 可 以 使 用 Python 自 带 的 函数 ， 
比如 上 述 代码 的 len， 也 可 以 自 定义 函数 。 

下 面 自 定义 一 个 函数 comp， 有 一 个 输入 参数 x。 函 数 中 先 用 type 判断 x 的 数据 类 型 ， 如 果 不 
是 str (字符 串 ) 类型， 就 返回 '0'， 如 果 是 str 类 型 ， 就 直接 返回 x， 即 保持 原来 的 值 不 变 。 

【示例 2-21】 


01 stul=["'10001',' 男 ', ' 张 晓 光 ' ,20]; 
02 def comp (x) : 





03 if type (x) is not str: 

04 return "0" 

05 else: 

06 return x 

07 

08 stul.sort (key=comp) 

09 ”Print (' 学 生 : ', stul) # 学 生 : [20，'10001'，' 张 晓 光 ' ，' 男 '] 


代码 中 使 用 key=comp 让 stul 列表 的 排序 按 我 们 自 定义 的 方式 。 因 为 列表 中 既 有 字符 串 又 有 数 
字 ， 而 自 定义 函数 的 意思 是 将 数字 换 为 '0'， 也 就 是 让 其 保持 最 小 值 ， 以 方便 排序 时 保证 它 在 前 面 的 
位 置 ， 所 以 最 终 实现 了 数字 在 前 、 字 符 串 在 后 的 排序 。 


2.5.5 删除 列表 


前 面 介绍 列表 函数 时 ， 使 用 remove、pop 这 两 个 函数 删除 列表 中 的 元 素 。 本 小 节 再 介绍 两 个 
函数 ， 即 del 和 clear。 

clear 也 是 列表 的 函数 ， 不 是 删除 某 个 元 素 ， 而 是 清空 列表 : 

stul=["'10001', ' 男 ', ' 张 晓 光 ' ] ; 

stul.clear () 

print(' 学 生 : ', stul) # 学 生 : [] 
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del 用 法 和 pop 类 似 ， 也 是 删除 指定 索引 的 位 置 ， 并 可 以 使 用 切片 方法 删除 。 


stul=['10001', ' 男 ', ' 张 晓 光 ' ] ; 

del stul[0] 

del stul[-1] 

#del stul[0:3] 

Print(" 学 生 : ', stul) # 学 生 [' 男 '] 


如 果 stul 不 指定 删除 的 位 置 ， 直 接 使 用 del stul 会 删除 整个 列表 ， 此 时 如 果 再 访问 stul, 会 
提示 该 变量 未 定义 的 错误 。 读 者 请 自行 测试 一 下 。 





2.5.6 ”获取 列表 中 的 最 大 值 和 最 小 值 


Python 提供 了 几 个 函数 用 于 操作 列表 ， 如 获取 列表 的 个 数 、 最 大 值 、 最 小 值 等 ， 这 些 使 用 方 
法 比较 简单 ， 这 里 简单 讲解 一 下 。 

”len(list): 列表 元 素 个 数 。 

@ max(list): 返回 列表 中 元 素 的 最 大 值 。 

@ min(lisb): 返回 列表 中 元 素 的 最 小 值 。 

直接 写 一 段 代码 : 

【示例 2-22】 


01 scorel=[80,100,98,59] 

02 ”print ('%d 个 成 绩 '%$len (scorel) ) 

03 ”print (" 成 绩 最 高 : ' ,max (scorel)) 

04 ”print (' 成 绩 最 低 : ' ,min(scorel)) 

这 里 定义 一 个 成 绩 列表 ， 然 后 选 出 所 有 成 绩 的 最 大 值 和 最 小 值 ， 结 果 如 下 : 


4 个 成 绩 
成 绩 最 高 : 100 
成 绩 最 低 : 59 


2.5.7 ”列表 常用 运算 符 


数字 有 +、-、* 、/ 等 运算 符 ， 字 符 串 有 +、-、[]、[] 等 运算 符 ， 列 表 也 有 一 些 运算 符 ， 如 表 2.8 
所 示 。 
表 2.8 ”列表 常用 运算 符 
| 名 称 说 明 
运算 符 两 侧 的 列表 组 合 在 一 起 
根据 右 侧 数字 重复 运算 符 左 侧 的 列表 
判断 运算 符 左 侧 的 元 素 是 否 属 于 右 侧 的 列表 
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改 。 


演示 一 段 代码 : 

【示例 2-23】 

01 stul=['101', ' 张 晓 光 ' ] 
02 stu2=[' 男 ', 20] 


04 print('stul+tstul:',stultstu2) 
05 print('stul*2:',stul*2) 
06 print('101 in stul:','101' in stul) 


输出 结果 如 下 : 
stultstul: ['101',，' 张 晓 光 '，' 男 '，20] 


stul*2: ['101',' 张 晓 光 ' ，'101'，' 张 晓 光 '] 
101 in stul: True 


2.6 元 组 


元 组 是 一 组 有 序 的 元 素 ， 各 种 使 用 方法 与 列表 类 似 ， 只 是 元 组 中 的 元 素 一 旦 定义 ， 就 不 能 更 
本 节 将 学 习 元 组 的 使 用 ， 其 中 学 习 过 程 与 上 一 节 类 似 ， 读 者 可 以 通过 对 比 加 深 印 象 。 


2.6.1 使 用 元 组 


元 组 的 定义 使 用 ()， 列 表 使 用 0。 我 们 知道 列表 的 定义 方式 有 以 下 两 种 : 
stul=['10001',' 张 晓 光 ', ' 男 '] 

stul=[0]*width 

元 组 是 否 也 可 以 这 样 定义 呢 ? 

当然 不 可 以 ， 因 为 元 组 的 元 素 是 不 能 改变 的 ， 我 们 无 法 先 使 用 [0] 来 定义 元 素 ， 后 期 再 做 更 改 。 


因此 使 用 元 组 的 方式 是 : 


stul=('10001',' 张 晓 光 ', ' 男 ') 





也 可 以 使 用 stul=() 的 形式 定义 空 元 组 ， 但 因为 元 组 内 的 元 素 不 可 以 改变 ， 所 以 这 样 基本 没 





元 组 还 有 一 种 更 简单 的 定义 方式 。 在 Python 中 ， 默 认 用 逗号 间隔 的 一 组 元 素 自动 会 定义 为 元 





。 比 如 下 面 这 段 代码 : 


stul='10001', ' 张 晓 光 ' , ' 男 ' 
我 们 直接 在 Python 的 交互 模式 解释 器 中 输出 stul 的 类 型 , 会 显示 它 是 一 个 tuple《〈 元 组 ) ， 如 


图 2.12 所 示 。 
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>>> stul= "10001  ， 张 晓 光 " ， 男 " ,20 
>>> 


>>> 

>>> typelstul) 
《class“tup1le > 
>>> | 





图 2.12 输出 元 组 类 型 


2.6.2 ”访问 元 组 


访问 元 素 也 是 使 用 [] 索 引 的 方式 ，0、 正 负数 都 可 以 ,也 支持 [: ] 这 种 切片 方式 。 下 面 举 例 说 明 : 
stul=('10001',' 张 晓 光 ', ' 男 ', 20) 

print(' 学 生 学 号 ，%s， 学 生年 龄 : sd'"s (stul [0] ,stul[-1])) 

Print(" 学 生 : ', stul [1:3]) 

输出 结果 如 下 : 


学 生 学 号 : 10001， 学 生年 龄 : 20 
学 生 : (' 张 晓 光 ' ，' 男 ' ) 


这 里 要 注意 的 是 ， 如果 stul 是 一 个 列表 , 用 [:] 切 片 形 式 输出 时 就 显示 [ 张 晓 光 ', ' 男 ]; 如 果 stul 
是 一 个 元 组 ， 输 出 时 就 显示 (' 张 晓 光 ', ' 男 ')。 读 者 要 注意 [] 和 () 的 区 别 。 


2.6.3 ”元 组 常用 的 内 置 函数 


因为 元 组 不 可 修改 ， 所 以 列表 中 有 的 追加 、 插 入 、 移 除 等 函数 ， 元 组 都 没有 。 常 用 的 元 组 函 
数 只 有 两 个 : 


@ count(): 查找 指定 元 素 在 元 组 中 出 现 的 次 数 。 
@ index(): 查找 指定 元 素 第 一 次 在 元 组 出 现 的 索引 值 。 


举例 如 下 : 


stul='10001',' 张 晓 光 ', ' 男 ', 20, 20 
print('20 出 现 的 次 数 ', stul.count (20)) #2 
print('20 出 现 的 位 置 ', stul .index(20)) # 3， 返回 第 一 次 出 现 的 位 置 


index0 除 了 可 以 在 整个 元 组 中 查找 ， 还 可 以 在 指定 开始 位 置 和 结束 位 置 之 间 的 元 素 块 中 查找 ， 
比如 在 stul 的 最 后 3 个 元 素 中 查找 。 


stul .index (20,3,5) #3 





不 管 是 在 最 后 3 个 元 素 中 查找 ， 还 是 在 所 有 元 素 中 查找 ，index 函数 返回 的 位 置 都 是 该 元 素 
在 整个 元 组 中 的 位 置 。 
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2.6.4 删除 元 组 


元 组 没有 clear 清空 函数 ， 也 不 能 使 用 del 指定 要 删除 的 索引 位 置 。 删 除 元 组 只 需要 一 句 del， 
如 图 2.13 所 示 。 


del stul 





>>> stul= 10001 ， 张 暧 光 ， 勇 ,20 

>>> del stul 

>>> print (stul) 

Traceback (most recent call last) 

File "<pyshell#29>”, line 1, in <module> 

print (stul) 

NameError: name ’stul’” is not defined 

> 





图 2.13 ”删除 元 组 
删除 stul 元 组 后 ， 如 果 再 次 访问 该 元 组 ， 系 统 会 给 出 is not defined 的 未 定义 错误 。 


2.6.5 ”获取 元 组 中 的 最 大 值 和 最 小 值 


也 可 以 使 用 min、max 获取 元 组 中 的 最 小 值 和 最 大 值 。 直 接 看 一 段 代码 : 
【示例 2-24】 

01 scorel=(80,100,98,59) 

02 ”print ('%d 个 成 绩 '$len (scorel) ) 


03 ”print (' 成 绩 最 高 ;', max (scorel)) 
04 ”print(' 成 绩 最 低 : ' ,min(scorel)) 


输出 结果 如 下 : 
4 个 成 绩 
成 绩 最 高 : 100 
成 绩 最 低 :59 


2.6.6 ”元 组 常用 运算 符 


元 组 的 运算 符 和 列表 的 运算 符 基 本 一 致 ， 常 用 的 也 是 +、*、in。 
e+: 生成 一 个 新 的 元 组 。 

@ *: 重复 几 次 。 

ein: 判断 是 否 包含 指定 的 元 素 。 

还 是 直接 举例 : 

【示例 2-25】 

01 stul=('101',' 张 晓 光 ') 


02 stu2=(' 男 ',20) 


04 print('stultstul:',stult+stu2) 
05 print('stul*2:',stul*2) 
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输出 结果 如 下 : 
stul+stul: ('101'，' 张 晓 光 '， 
seul*2s ("101' 0 " 张 脱 光 '7 100" 
101 in stul: True 


2.6.7 元 组 与 列表 的 转换 


' 男 '， 
' 张 晓 光 ' ) 


print('101 in stul:','101' in stul) 


20) 


在 Python 中 ， 元 组 类 型 和 列表 类 型 可 以 互 换 。 
当 将 一 个 列表 转换 为 元 组 时 ， 使 用 tuple(seq) 函 数 ， 此 时 列表 还 是 列表 ， 会 创建 一 个 新 元 组 。 当 将 
一 个 元 组 转换 为 列表 时 ， 使 用 list(seq) 函 数 ， 此 时 元 组 还 是 元 组 ， 会 创建 一 个 新 列表 。 虽 然 意 思 有 点 擅 








1. 列表 转 元 组 
列表 转 元 组 使 用 tuple 函数 : 


stul=['10001',' 张 晓 光 ', ' 男 ' ,20] 


tupl=tuple (stul) # 转 元 组 
print (type (stul)) # <class 
print (type (tup1)) # <class 
2. 元 组 转 列表 

元 组 转 列 表 使 用 list 函数 : 
stul=('10001',' 张 晓 光 ', ' 男 ' ,20) 
listl=list (stul) # 转 列表 
print(type (stul)) # <class 
print (type (list1)) # <class 


2.7 


字典 的 概念 来 自 英文 Dictionary 的 翻译 ， 


本 节 将 介绍 Python 中 的 字典 。 
2.7.1 使 用 字典 


口 ， 但 读者 一 定 要 注意 ， 并 不 是 原 有 的 列表 或 元 组 发 生 了 根本 性 的 改变 ， 只 是 创建 了 一 个 新 对 象 。 


'list'> 
'tuple'> 


"tuple'> 
"list'> 


oo» 


字 典 


意思 是 一 对 key-value 的 组 合 值 ， 通 常 称 为 键 - 值 对 。 


在 Python 中 ， 使 用 外 定义 字典 ， 字 典 中 的 键 - 值 对 用 冒号 间隔 ， 比 如 定义 一 个 字典 : 
stul={ "学 号 ' : "10001'，' 姓 名 ' : ' 张 晓 光 '，" 性 别 ' : ' 男 "，' 年 龄 ' :20} 


在 字典 中 ， 键 是 不 可 变 的 〈 数 字 


典 中 的 年 龄 为 30， 可 以 这 样 写 : 


stul[' 年 龄 ']=30 


、 字 符 串 、 元 组 ) ， 但 值 是 可 以 改变 的 ， 比 如 要 改变 上 述 字 


50 ”| Python 3.6 零 基础 入 门 与 实战 





字典 中 的 值 可 以 是 任意 类 型 ， 因 为 键 是 不 可 改变 的 ， 所 以 不 能 是 列表 等 可 变 类 型 。 





在 字典 中 ， 键 是 唯一 的 ， 虽 然 定义 字典 时 允许 输入 两 个 相同 的 键 ， 但 实际 上 后 一 个 键 的 值 会 
覆盖 上 一 个 键 的 值 ， 比 如 以 下 代码 定义 了 重复 的 “姓名 ” 键 : 
stul={ "学 号 ' : "10001'，' 姓 名 ' : ' 张 晓 光 '，'" 姓 名 ' : ' 李 三 '，' 年 龄 ' :20} 
stul[" 姓 名 "] 输 出 的 结果 会 是 “ 李 三 ” 
: 面 我 们 演示 的 键 都 是 字符 串 ， 其 实 键 还 可 以 是 数字 或 元 组 ， 比 如 下 面 定义 一 组 数字 键 : 
day={1: ' 星 期 一 ', 2: ' 星 期 二 ', 3: ' 星 期 三 ' } 
print(day[1]) 
也 可 以 使 用 混合 类 型 的 键 ， 比 如 既 有 数字 键 又 有 字符 串 的 键 : 
day={1: ' 星 期 一 ', 2: ' 星 期 二 ', 3:' 星 期 三 ',' 四 ' : ' 星 期 四 '} 





print(day[' 四 ']) 


2.7.2 访问 字典 


访问 序列 中 的 元 素 基 本 都 用 []， 字 上 典 也 不 例外 。 因 为 元 素 是 键 - 值 对 ， 所 以 [] 中 还 需要 指定 要 访 
问 的 键 。 比 如 stul[ 姓 名 "] 就 是 访问 “姓名 ” 键 所 对 应 的 值 。 


访问 列表 或 元 组 时 ， 可 以 使 用 stul[ 索 引 ] 的 方式 ,但 字典 中 并 不 可 以 ， 比 如 使 用 索引 [0] 并 不 
会 访问 第 1 个 元 素 ， 而 是 访问 键 为 0 的 元 素 。 





下 面 举例 : 

day={1: ' 星 期 一 ', 2: ' 星 期 二 ', 3:30,' 四 ' : ' 星 期 四 ' } 
Print (day[' 四 ']) # 星 期 四 
Print(day[2]) # 星 期 二 


2.7.3 字典 常用 的 内 置 函 数 


字典 中 包括 一 些 返回 值 、 返 回 键 的 方法 ， 如 表 2.9 所 示 。 
表 2.9 字典 常用 的 内 置 函数 
























名 称 说 明 
dict.copy(O) 返回 一 个 字典 的 深 拷贝 
dict.fromkeys(seq[, value])) 创建 一 个 字典 ， 以 序列 seq 中 的 元 素 做 字典 的 键 ，value 可 省 略 ， 为 字典 






所 有 键 对 应 的 初始 值 ， 如 果 省 略 ， 值 就 为 None 
指定 键 的 值 ， 如 果 值 不 在 字典 中 ， 就 返回 default 默认 值 















dict.get(key, default=None) 
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( 续 表 ) 
dict.items() 以 列表 形式 返回 可 遍历 的 ( 键 , 值 ) 
dictkeys0 以 列表 形式 返回 一 个 字典 所 有 的 键 
dict.setdefault(key, default=None) 和 get0 类 似 ， 但 如 果 键 不 存在 于 字典 中 ， 就 会 添加 键 并 将 值 设 为 default 
dictupdate(dict2) 把 指定 字典 的 键 / 值 对 更 新 到 当前 字典 中 
dictvalues0) 以 列表 形式 返回 字典 中 的 所 有 值 





一 旦 定义 一 个 变量 ， 其 在 内 存 中 占据 的 位 置 一 般 不 可 变 ， 都 是 通过 一 个 引用 指向 该 变量 。 
变 ， 这 


如 果 复 制 某 个 变量 ， 也 只 是 增加 一 个 引用 ， 具体 位 置 还 是 不 ， 这 个 时 候 就 是 浅 拷贝 ;如 
果 增 加 引用 的 同时 具体 位 置 也 发 生 了 变化 ， 这 种 称 为 深 拷 贝 。 





下 面 举例 : 
【示例 2-26】 
01 dictl={' 姓 名 ' : ' 张 晓 光 ',' 年 龄 ' :20} 


03 ”print ('1. 所 有 键 : ',dictl1.keys()) 
04 ”print ('2. 所 有 值 : ' ,dictl1.values()) 
05 ”print ('3. 所 有 键 - 值 : ',dict1.items()) 


07 dict2=dictl 
08 dict3=dictl.copy() 
09 ”print ('4. 浅 拷贝 和 深 拷贝 ，', id (dict1) ,id(dict2) ,id(dict3)) 


11 scorel=(1,2,3,4) 

12 dict4=dictl.fromkeys (scorel) 

13 ”print ('5. 通 过 元 组 创建 字典 : ', dict4) 

14 ”print ('6.get 年 龄 ，', dictl.get(' 年 龄 ')) 


16 dictl.setdefault (' 年 龄 ',30) 
17 print ('7.setdefault 年 龄 : ',dict1) 


19 ”qdict5={' 成 绩 ' : ' 优 良 '} 
20 dictl.update(dict5) 
21 ”print ('8.update 成 绩 : ', dict1) 


输出 结果 如 图 2-14 所 示 。 











== RESTART: D:7dictl.py 
dict_keys([ 姓名 ",，' 年龄]) 
ct_values([ 张 晓 光 ，20]) 

: dict_items([( 姓名 *,，’ 张 晓 光 ”)， (年 龄 *，20)]) 
至 拷贝 1996866938632 1996866938632 1996867426848 
{1l: None, 2: None, 3: None, 4: None} 


寻思 “ 张 晓 光 ", “年 龄 " : 20，’ 年 纪 ”: 30} 
" 张 晓 光 " ,“ 年 龄 ' : 20.“ 年 龄 : 30. “成绩 : “优良 *} 














窗 
tdefault 年 纪 
8.update 成 绩 : 了 姓名 








图 2.14 字典 内 置 函 数 应 用 
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这 里 要 特别 说 明 几 点 : 


(1) 如 果 是 通过 = 赋值 的 方式 创建 一 个 新 的 字典 ， 使 用 的 就 是 浅 拷 贝 ， 也 就 是 说 ， 并 不 开辟 
一 块 内 存 保存 新 字典 。 如 果 是 通过 copy 函数 创建 一 个 新 字典 ， 就 是 深 拷贝 方式 ， 通 过 id(dicb 输 出 
的 内 存 地 址 信息 可 以 判断 。 

(2) get 和 setdefault 都 可 以 获取 指定 键 的 值 ， 但 如 果 指 定 的 键 并 不 存在 ，get 就 返回 默认 值 
None， 而 setdefault 就 会 将 指定 的 键 添加 到 字典 中 。 

(3) update 是 将 指定 的 字典 更 新 到 当前 字典 中 ， 但 如 果 指定 的 字典 中 并 不 包含 值 ， 也 就 是 只 
有 键 的 情况 ,如 { 张 三 '"' 上 海 这 种 形式 , 代码 并 不 报错 , 而 是 自动 分 割 键 , 给 当前 字典 增加 键 值 对 ， 
比如 增加 后 是 { 张 ** 三 "上 ': 海 这 种 形式 。 因 此 ， 在 使 用 update 时 要 检查 仔细 。 


2.7.4 删除 字典 


删除 字典 的 方法 有 很 多 种 ， 如 clear、pop、popitem、del 等 ， 这 些 有 的 只 能 删除 字典 元 素 ， 有 
的 可 以 删除 字典 ， 具 体 说 明 如 下 : 
clear(): 清空 字典 中 所 有 键 - 值 对 。 
pop(key): 删除 指定 键 的 键 - 值 对 ， 有 返回 值 ， 返 回 值 为 被 删除 的 值 。 
popitem(): 删除 最 后 一 项 键 - 值 对 ， 有 返回 值 ， 返 回 值 为 被 删除 的 键 - 值 对 。 
del: 删除 字典 元 素 或 字典 ， 如 果 删 除 的 是 字典 ， 再 访问 字典 时 会 报错 。 


(1) 首先 介绍 clear， 清 空 字 典 后 ， 如 果 再 访问 字典 ， 就 不 会 报错 ， 返 回 {}。 


dict1={' 姓 名 ' :' 张 晓 光 ',' 年 龄 ' :20} 
dictl.clear() 
print (dict1) # {} 


(2) pop 函数 在 使 用 时 有 两 个 步骤 : 


日 一 是 在 字典 中 删除 键 - 值 对 。 
”二 是 返回 被 删除 的 值 。 


因为 有 返回 值 ， 所 以 可 以 定义 一 个 变量 接收 该 值 ， 例 如 : 


dict1={' 姓 名 ' :' 张 晓 光 ',' 年 龄 ' :20} 
strl=dict1.pop(' 姓 名 ') 

print(str1) # 张 晓 光 

print (dict1) # {' 年 龄 ': 20} 


(3) popitem 没有 人 参数， 默认 是 删除 最 后 一 项 键 - 值 对 (返回 元 组 ) ， 例 如 : 


dict1={' 姓 名 ' :' 张 晓 光 ',' 年 龄 ' :20} 
tupl=dict1.popitem() 
print (tup1) # ("年龄 '，20) 
print (dict1) # {' 姓 名 ' : ' 张 晓 光 ' } 
(4) 如 果 del 指定 键 , 则 删除 的 效果 和 popitem 没有 区 别 , 但 并 不 返回 值 ; 如 果 del 不 指定 键 ， 
则 会 删除 整个 字典 。 
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dict1={' 姓 名 ' :' 张 晓 光 ' ,' 年 龄 ' :20} 


del dict1[' 姓 名 '] # 删除 “姓名 ” 键 值 对 
print (dict1) 

del dict1 # 删除 字典 

print (dict1) 












龄 ”: 
raceback (most recent call last): 
File “D:/dictl.py’, line 51, in 《module> 
print (dict1) 
NameError: name “dictl” 
>>> | 







is not defined 





图 2.15 删除 字典 报错 


2.7.5 字典 常用 运算 符 


字典 没有 +、* 运 算 符 ， 只 有 in 运算 符 ， 用 于 判断 指定 的 键 是 否 在 字典 中 ， 或 者 使 用 not in 判 
断 指定 的 键 是 否 不 在 字典 中 。 

下 面 举例 : 

【示例 2-27】 


01 dict1l={' 姓 名 ' :' 张 晓 光 ',' 年 龄 ' :20} 
02 if ' 姓 名 ' in dictl: 


03 Print (dict1[' 姓 名 ']) 

04 

05 “if ' 性 别 ' not in dictl: 

06 dictl.setdefault (' 性 别 ', ' 男 ') 
07 print (dict1) 


上 述 代码 使 用 站 做 了 两 次 判断 ， 第 1 次 判断 字典 中 是 否 有 “姓名 ” 键 ， 如 果 有 ， 就 输出 该 键 
对 应 的 值 。 第 2 次 判断 是 否 没有 “性 别 ” 键 ， 如 果 没 有 ， 就 使 用 setdefault 添加 该 键 ， 并 输出 当前 
字典 。 代 码 输出 结果 是 : 

张 晓 光 

{' 姓 名 ' : ， 张 晓 光 ' ，' 年 龄 ': 20，' 性 别 ': ' 男 '} 


2.8 集 合 


合 是 一 组 无 序 的 不 能 重复 的 元 素 ， 这 个 和 列表 、 元 组 不 同 ， 虽 然 也 是 一 组 元 素 ， 但 因为 是 
无 序 的 ， 记 以 无 法 使 用 [] 索 引 的 方式 访问 。 集 合 不 能 重复 ， 其 作用 就 是 去 重 〈 去 掉 重 复数 据 ) 。 本 
节 将 介绍 集合 的 使 用 。 
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2.8.1 使 用 集合 


要 使 用 集合 ， 就 需要 用 set 函数 ， 这 类 要 注意 ， 其 他 序列 〈 列 表 、 元 组 ) 等 都 是 通过 0、[] 直 
接 定义 ， 而 集合 不 是 ， 相 当 于 是 通过 set 函数 将 数据 转换 为 集合 。 因 此 很 多 教程 也 不 把 集合 当 作 


Python 的 标准 数据 类 型 。 
使 用 集合 的 方式 如 下 : 
setl=set([1,200,39,50]) 
set2=set ([' 王 晓 光 ', ' 男 ']) 
Print(set1) 
Print (set2) 
上 述 集 合 的 输出 结果 如 下 : 


{200, 1, 50, 39} 
> 二 放 光 呈 


从 结果 可 以 看 出 ， 集 合并 没有 按 定 义 的 顺序 和 输出。 在 Python 中 ， 集 合 是 无 序 的 ， 打 印 结果 取 





决 于 其 内 部 存储 结构 和 输出 方式 。 


也 可 以 先 创建 一 个 列表 ， 然 后 使 用 set 函数 将 列表 转化 为 集合 ， 


如 listl=[45.68.98] 、 





setl=set(list] )。 


如 果 不 使 用 [] 的 方式 ， 直 接 定义 一 个 字符 串 集合 : 


setl=set ('hello') 
print(set1) 


从 输出 结果 可 以 看 出 ， 重 复 的 字母 会 被 删除 : 


集合 中 的 元 素 不 能 重复 ， 假 如 定义 以 下 带 有 重复 元 素 的 集合 : 


set1l=set ([1,200,200, 39, 50]) 
在 使 用 时 该 集合 并 不 会 报错 ， 但 会 默认 将 重复 的 值 去 掉 ， 


{200, 1, 50, 39} 





2.8.2 ”集合 常用 的 内 置 函 数 


合 虽然 是 无 序 的 ， 但 在 创建 后 还 可 以 添加 、 更 新 等 。Python 为 集合 提供 了 一 些 内 置 函数 ， 


如 表 2.10 所 示 。 
表 2.10 集合 常用 的 内 置 函数 


上 述 代码 输 


结果 为 : 








名 称 说 明 
add 添加 元 素 








clear 清空 元 素 
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( 续 表 ) 

copy 复制 集合 
discard 删除 指定 元 素 ， 如 果 没 有 也 不 会 报错 
pop 随机 删除 一 个 元 素 
remove 删除 指定 元 素 ， 如 果 没 有 会 报错 
update 更 新 元 素 

下 面 举 例 : 

【示例 2-28】 

01 setl=set([1,200,39,50]) 

02 setl.add(30) # 添 加 

03 print('1.add 30: ',setl1) 

04 

05 set2=setl.copy() # 复 制 

06 print('2.copy: ',set2) 

07 

08 setl.discard(200) # 删 除 

09 print('3.discard: ',setl1) 

10 

11 setl.pop() # 随 机 删除 

12 print('4.pop: 'vset1) 

13 

14 setl.remove(39) # 删 除 ， 如 果 没 有 会 报错 ， 终 止 程序 

15 print('5.remove: ',set1) 

16 

17 setl.update([300,500]) # 更 新 

18 print('6.update: ',set1) 

19 

20 setl.clear() # 清 空 

21 print('7.clear: 'vset1) 


输出 结果 如 图 2.16 所 示 。 















1, 0: 

2.copy: {1, 50, 39, 200,，30} 

3.discard: {1, 39, 50,30} 

4.pop: {39, 50, 30} 

5.remove: {50, 30} 

6.update: {300, 50, 500,30} 

7.clear: set() 

>>> | 

图 2.16 集合 内 置 函数 应 用 

这 里 有 几 点 需要 注意 : 


(1) discard 和 remove 虽然 都 是 删除 元 素 ， 但 如 果 指 定 的 元 素 不 存在 ， 则 discard 依然 会 继续 
执行 ，remove 会 报错 终止 程序 执行 。 
(2) pop 删除 元 素 时 是 随机 的 。 


(3) 复制 集合 时 ， 从 结果 可 以 看 出 ， 复 制 后 的 集合 顺序 和 原 集合 顺序 并 不 相同 。 
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(4) clear 只 是 清空 集合 的 内 容 ， 如 果 要 删除 集合 ， 还 是 使 用 del setl 这 种 方式 。 


2.8.3 ”集合 常用 运算 符 〈 交 集 、 并 集 、 差 集 、 对 称 差 集 ) 


在 数学 中 ， 由 一 个 或 多 个 确定 的 元 素 所 构成 的 整体 叫 作 集合 。 数 学 中 的 集合 有 三 大 特性 : 

@ ”确定 性 (集合 中 的 元 素 必须 是 确定 的 ) 

日 互 异 性 (集合 中 的 元 素 互 不 相同 ) 

@ 无 序 性 (集合 中 的 元 素 没有 先后 之 分 ) 

通过 前 面 对 Python 中 集合 的 学 习 ， 我 们 会 发 现 ，Python 中 的 集合 和 数学 中 的 集合 一 样 。 数 学 
中 的 集合 有 一 些 运 算 ， 如 交集 、 并 集 等 ，Python 中 也 一 样 ， 可 用 来 进行 一 些 科学 计算 。 

本 小 节 介绍 的 集合 常用 运算 符 主 要 有 4 个 : 

@ setl | set2 : setl 和 set2 的 并 集 。 

@ setl & set2 : setl 和 set2 的 交集 。 

@ setl -set2 : 差 集 (元 素 在 setl 中 ， 但 不 在 set2 中 )。 

@ setl ^set2 : 对 称 差 集 (元 素 在 setl 或 set2 中 ， 但 不 会 同时 出 现在 两 者 中 )。 


相对 于 集合 的 这 些 数学 操作 ，Python 也 提供 了 一 些 内 置 函 数 用 于 科学 计算 ， 参 见 表 2.11。 
表 2.11 用 于 科学 计算 的 内 置 函数 








名 称 相当 于 运算 符 | 说 明 

setLissubset(set?) 

setlissuperset(set2) 检查 set2 中 的 每 一 个 元 素 是 否 都 在 setl 中 ， 父 集 

setl.union(sel?) 

setl intersection(set2) 返回 一 个 新 的 set， 包 含 setl 和 set2 中 的 公共 元 素 ， 交 集 

setl.difference(set2) 返回 一 个 新 的 set， 包 含 setl 中 有 但 set2 中 没有 的 元 素 ， 差 
集 


setl.symmetric_difference(set2) | setl ^ set2 返回 一 个 新 的 set， 包 含 setl 和 set2 中 不 重复 的 元 素 ， 对 称 
差 集 











下 面 举例 ， 首 先 创建 两 个 数据 集合 : 
【示例 2-29】 

01 setl=set([1,200,39,50]) 

02 set2=set([19,200,3,50,39,1]) 


03 print (set1) 
04 print(set2) 


05 

06 print('1.issubset: ',setl.issubset (set2)) #set2 是 否 是 set1 的 子 集 ，True 
07 “print('1.setl <= set2: ' setl <= set2) #set2 是 否 是 set1 的 子 集 ，True 
08 

09 print('2.issuperset: ',setl.issuperset (set2)) #set2 是 否 是 set1l 的 父 集 ，False 
10 print('3.union: "vsetl.union (set2) ) # 并 集 


11 print('4.intersection: ', setl.intersection(set2))  # 交 集 ，setl 和 set2 都 有 的 元 素 
12 print('5.difference: ',set2.difference(set1)) # 差 集 ，set2 中 有 ，setl 中 没有 


第 2 章 ”Python 中 的 数据 与 结构 | 57 





13 print('6.symmetric difference: ',setl.symmetric difference (set2) )# 对 称 差 集 ， 不 重复 的 元 素 


输出 结果 如 图 2.17 所 示 。 








= FESTART: D:7setl.py ====: 


00，1，50，39} 

{1,3, 39, 200,50, 19} 
l.issubset: True 
l.setl 《= set2: True 
2.issuperset: False 
3.union: {1l, 3, 39, 200, 50, 19} 
4. intersection: {200,1,50, 39} 
5.difference: {19, 3} 

6. symmetric_difference: {3, 19} 
>>> 





图 2.17 科学 计算 函数 的 应 用 

使 用 这 些 集合 运算 时 要 注意 以 下 几 点 : 

(1) 代码 中 使 用 差 集 时 ， 因 为 本 例 setl 集合 中 的 内 容 都 在 set2 中 ， 所 以 举例 时 用 的 
set2.difference(set1)) 并 不 是 set1.difference(set2))， 其 他 运算 都 是 setl.xxx 形式 。 

(2) 因为 issubset 和 issuperset 只 是 判断 ， 所 以 返回 的 是 True 或 False， 并 不 返回 新 的 集合 ， 
而 其 他 运算 都 会 返回 新 的 集合 ， 从 输出 结果 中 也 可 以 看 到 。 

(3) 使 用 内 置 函数 或 使 用 -、&、| 、<= 等 运算 符 的 结果 是 一 样 的 。 

(4) 集合 主要 的 作用 就 是 去 重 ， 通 过 结果 可 以 看 到 ， 使 用 交集 时 ， 两 个 集合 中 相同 的 元 素 都 
被 去 掉 了 。 


2.9 推导 式 


推导 式 (comprehensions) 又 称 解 析 式 ， 是 Python 的 一 种 独 有 特性 。 推 导 式 是 可 以 从 一 个 数据 
序列 构建 另 一 个 新 的 数据 序列 的 结构 体 。Python 共有 3 种 推导 式 : 


@ 列表 (list) 推导 式 ; 
ee 字典 (dict ) 推导 式 ; 
@ 集合 (set) 推导 式 。 


2.9.1 初 识 推导 


先 来 看 一 段 代 码 : 
T=[ (x,y) for x in range(5) if x%2==0 for y in range(5) if y $2==1] 


好 长 好 奇怪 ， 其 实 这 就 是 常见 的 推导 式 ， 其 基本 语法 如 下 : 


variable = [expr for value in seq if condition] 


首先 需要 一 个 变量 接收 推导 式 ， 右 侧 的 [ ] 表 示 这 是 列表 推导 式 ， 字 典 或 集合 推导 式 都 是 使 用 














58 | Python 3.6 零 基 础 入 门 与 实战 





{ }。expr 是 一 个 表达 式 或 变量 ， 可 想象 成 每 个 符合 条 件 的 值 。 推 导 式 中 的 让 是 根据 条 件 过 滤 哪些 
值 ， 不 是 必 选 。for 循环 可 理解 为 某 个 区 间或 某 个 范围 。 
下 面 以 列表 方式 举例 : 


T= [i for i in range(40) if i % 4 is 0] 
Print(T) 


返回 结果 : 

LO a 07 2 0 0 SM 20v 92 30] 

从 结果 可 以 看 出 ， 返 回 的 是 列表 形式 ， 通 过 让 条 件 过 滤 下 来 的 是 可 以 被 4 整除 的 数 。 通 过 for 
循环 依次 输出 40 以 下 的 满足 证 条 件 的 值 。 

因为 在 语法 中 [ ] 里 面 的 第 1 个 变量 也 可 以 是 表达 式 ， 所 以 我 们 再 改 为 表达 式 ， 这 里 创建 一 个 
函数 。 

def seq(x): 

return x*x 

T= [seq(i) for i in range(40) if i % 4 is 0] 

Print(T) 

以 上 输出 变量 的 平方 值 : 

[0, 16, 64, 144, 256, 400, 576, 784, 1024, 1296] 

字典 推导 式 、 集 合 推导 式 与 列表 推导 式 的 使 用 语法 一 致 ， 只 是 需要 将 [ ] 改 为 { }。 下 面 创 建 字 
典 推导 式 ， 输 出 指定 键 的 内 容 。 

【示例 2-30】 


01 dicl = {'a': 20, 'c': 46, 'A': 9, 'B': 30,'d':50} 
02 diclT={ 


03 t.lower(): dicl.get(t) 
04 for t in dicl.keys() if t.lower() in ['a','b'] 
D5 


06 print(dicl 7) 

首先 创建 一 个 字典 dic1， 有 5 个 键 - 值 对 。 再 创建 一 个 字典 推导 式 dicl_T， 过 滤 条 件 是 字典 的 
键 a、b 或 A、B。 返 回 的 内 容 是 tlower(): dicl.get(t)。lower0 返 回 小 写 ，get() 获 取 指 定 键 的 值 。 上 
述 代 码 结果 是 : 


SA 0 


2.9.2” 艇 套 推导 


列表 都 是 可 以 嵌 套 的 ， 列 表 的 推导 式 也 可 以 嵌 套 。 下 面 用 一 个 广泛 流行 的 例子 来 说 明 。 
有 一 个 嵌 套 的 名 字 列 表 ， 第 1 排 是 男孩 名 字 ， 第 2 排 是 女孩 名 字 。 
names = [ 

['Tom', 'Billy','Jefferson', 'Andrew', 'Wesley','Steven','Joe'], 

['Alice', 'Jill', 'Ana', 'Wendy', 'Jennifer', 'Sherry', 'Eva'] 
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如 果 使 用 for 循环 输出 “姓名 中 带 有 两 个 以 上 字母 e 的” 姓名， 那么 代码 如 下 : 
tmp=[] 
for lst in names: 
for name in lst: 
if name.count ('e') >= 2: 
tmp.append (name) 
print (tmp) 


tmp 是 一 个 临时 列表 ， 用 于 保存 符合 条 件 的 姓名 ， 代 码 中 用 了 两 个 for 遍历 嵌 套 列表 ， 代 码 结 


['Jefferson', 'Wesley', 'Steven', 'Jennifer'] 


嵌 套 推导 式 会 让 代码 更 加 简洁 ， 相 同 的 嵌 套 列表 ， 如 果 要 用 推导 式 的 形式 ， 代 码 如 下 : 


T=[name for lst in names for name in lst if name.count('e') >= 2] 
Print(T) 


读者 可 以 仔细 分 析 柑 套 列 表 推导 式 的 每 个 关键 词 ， 也 是 两 个 for， 只 是 都 写 在 了 一 行 里 ， 其 实 
关键 词 都 差不多 ， 上 述 代码 的 输出 结果 也 与 前 面相 同 。 


2.10 ”数据 结构 实战 : 文本 统计 分 析 


本 节 将 使 用 本 章 前 面 介 绍 的 各 种 数据 结构 实现 一 个 简单 的 例子 : 对 两 个 英文 文档 进行 统计 ， 
得 到 两 个 英文 文档 使 用 了 多 少 单词 、 每 个 单词 的 使 用 频率 , 并 且 对 两 个 文档 进行 比较 , 返回 有 差异 
的 行 号 和 内 容 。 

本 节 要 实现 的 程序 取 名 为 PyMerge， 它 需要 实现 两 个 功能 模块 : 统计 和 比较 。 

日 ”统计 功能 : 主要 是 统计 总 词汇 数 和 每 个 词汇 的 数目 。 

可 以 将 每 个 词汇 作为 key 保存 到 字典 中 ， 对 文本 从 开始 到 结束 循环 处 理 每 个 词汇 ， 并 将 它 的 
value 设置 为 1， 如 果 已 经 存在 该 词汇 的 key， 说 明 该 词汇 已 经 使 用 过 ， 就 将 它 的 value 累加 1。 

”比较 功能 : 主要 是 比较 两 个 文本 的 差异 ， 需 要 忽略 空 行 和 空格 的 影响 ， 也 就 是 因为 多 个 空 行 

或 空格 产生 的 文本 差异 不 应 该 列 为 文本 差异 。 

在 实现 这 个 功能 的 时 候 ， 首 先 要 将 文本 分 成 一 行 一 行 的 ， 对 每 一 行进 行 处 理 ， 忽 略 空格 的 个 
数 ， 将 字符 串 里 有 效 字符 转换 成 列表 ， 然 后 进行 比较 。 

统计 功能 是 将 词汇 放 到 字典 类 型 中 ， 用 字典 的 key 存放 单词 ， 用 value 存放 个 数 。 


2.10.1 文本 统计 功能 


统计 功能 是 将 一 个 文本 的 每 个 字符 作为 key 值 放 入 字典 中 ， 以 下 代码 实现 了 文本 词汇 数 的 统 
计 。 


01 >>> readtxt=""" 





60 | Python 3.6 零 基础 入 门 与 实战 
02 this is a test txt! 
03 can you see this ? 
04 症 攻 请 
05 >>> 
06 >>> readlist=readtxt.split() 
07 >>> dict={} 
08 >>> for every word in readlist: 
09 if every word in dict: 
10 dict [every word]+=1 
让 else: 
12 dict [every word]=1 
13 
14 >>> print (dict) 
15 {'this': 2，'is': 1, 'a': 1, 'test': 1, 'txt!'; 1, 'can': 1, 'you': 1, 'see': 1, '?'; 1} 


第 06 行 代码 ， 对 文本 字符 串 readtxt 做 split 操作 ， 就 可 以 获得 该 文本 





串 的 所 有 词汇 ， 每 


个 词汇 都 作为 列表 的 元 素 返回 。 第 08~12 行 代码 循环 处 理 词 汇 列表 ， 将 词汇 作为 dict 的 key， 如 果 
key 已 经 存在 ， 则 它 的 value 值 累加 1， 和 否则 将 value 设置 为 1。 

上 面 实现 的 文本 统计 的 代码 需要 封装 起 来 给 整个 程序 使 用 ， 可 以 使 用 函数 封装 ， 使 用 语法 定 
义 def functionname(): 函数 就 可 以 了 ， 具体 的 函数 在 后 面 的 章节 会 介绍 ， 这 里 直接 使 用 。 封 装 代 


码 如 下 : 


def wordcount (readtxt) : 
dict={} 

readlist=readtxt .split () 
for every word in readlist: 


i 


f every word in dict: 
dict [every word]+=1 
lse: 
dict[every word]=1 


return dict 


2.10.2 文本 比较 功能 


文本 比较 首先 需要 将 文本 字符 串 分 成 一 行 一 行 的 ， 使 用 字符 串 splitlines 方法 将 一 个 字符 串 按 
行 分 成 一 个 列表 ,对 分 成 的 列表 删除 空 元 素 和 空白 字符 元 素 , 最 后 将 两 个 文本 进行 循环 比较 。 以 下 


代码 实现 了 文本 比较 功能 : 
01 def testcmp (testl,test2): 
02 return 1i=[] 
03 word listl=testl.splitlines() 
04 word list2=test2.splitlines() 
05 1i word= [column for column in word listl if column and column.isspace()] 
06 1i word2=[column for column in word list2 if column and column.isspace()] 
07 1i len=len (li word) 
08 1i len2=len (li word2) 
09 for step in range(max(li len,1i len2)): 
10 if step<li len and step<li len2: 
EE 1i coll=l1i word[step] .split() 
FT2 1i col2=1i word2[step].split() 
13 if 1i coll!=1i col12: 
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14 return 1i.append((word listl.index (li word[step]), 
15 word list2.index(li word2[step]),1i word[step],1i word2[step])) 
16 else: 
ni if 1i len>li len2: 
18 return 1i.append((word listl.index(1i word[step]),-1,1i word[step],'')) 
19 else: 
20 return li.append((-l,word list2.index(li word2[step]),'', 
1i word2 [step])) 
21 return return 1i 
代码 的 实现 逻辑 主要 包括 : 


@ 第 03~04 行 ， 对 两 个 文本 按 行 划分 。 

@ 第 05~06 行 ， 一 个 列表 推导 式 操作 ， 作 用 是 去 掉 空 行 和 只 有 空白 字符 的 行 。 

@ 第 11~12 行 ， 将 文本 每 一 行 转换 成 列表 ， 转 换 过 程 中 忽略 空白 字符 。 

@ 第 13~14 行 ， 比 较 的 结果 如 果 不 相 等 ， 就 写 信息 到 returm_li， 以 供 函数 返回 信息 。 

@ 第 16~20 行 ， 两 个 文本 行 数 不 一 致 时 ， 将 多 出 来 的 行 的 文本 信息 写 到 retum_li， 以 供 函 数 返 
回 。 


本 节 的 例子 并 不 完善 ， 还 没有 实现 文件 读 取 功 能 等 更 复杂 的 技术 。 这 里 只 是 演示 一 下 前 面 讲 
解 的 一 些 数据 结构 的 使 用 ， 等 读者 全 部 学 完 本 书 内 容 后 ， 可 以 继续 完善 这 个 例子 。 


结构 语句 


从 功能 上 划分 ， 语 句 可 以 分 为 两 类 : 

@ 一 类 是 用 于 描述 计算 的 操作 运算 语句 ， 如 数学 运算 、 赋 值 运算 、 浮 数 调用 语句 等 。 

日 另 一 类 是 用 于 控制 这 些 语句 执行 顺序 的 语句 ， 如 选择 语句 、 循 环 控制 语句 等 ， 这 类 语句 叫 作 
流程 控制 语句 。 


流程 控制 语句 一 般 分 为 选择 语句 、 循 环 语句 和 跳 转 语句 等 几 个 大 类 。 本 章 主 要 介绍 这 几 类 流 
程控 制 语句 。 


3.1 顺序、 选择 和 循环 


在 学 习 流程 控制 语句 前 ,我们 先 用 图 解 的 方式 说 明 顺 序 、 选 择 和 循环 这 3 种 结构 的 执行 顺序 。 




















第 1 步 
3.1.1 顺序 结构 

顺序 结构 ， 通 俗 来 讲 ， 就 是 “一 条 路 走 到 黑 ”， 不 需要 用 户 做 出 任何 选 第 2 步 
择 ， 程 序 就 按 步骤 执行 到 底 。 比 如 把 一 个 面包 放 入 冰箱 只 需要 3 步 : 





步 又 014 打开 冰箱 门 。 

















第 3 过 
步骤 024 放 入 面包 。 图 3.1 顺序 结构 
步骤 034 关闭 冰箱 门 。 


用 图 3.1 表示 这 个 步骤 。 整 个 操作 按 步 骤 执 行 ， 中 间 没 有 任何 多 余 选 择 。 
在 Python 代码 中 ， 没 有 单独 的 关键 词 表示 这 一 结构 ， 我 们 只 需要 按照 代码 的 执行 顺序 执行 ， 


第 3 章 结构 语句 | 63 





这 就 是 常 说 的 顺序 结构 。 


3.1.2 选择 结构 


选择 结构 ， 一 般 需 要 由 用 户 或 程序 做 出 选择 ， 然 后 按照 不 同 的 选择 执行 不 同 的 步骤 。 比 如 安 
装 软件 时 , 一 般 有 默认 安装 和 自 定义 安装 两 种 方式 ， 当 用 户 选择 自 定义 安装 后 ,执行 的 步骤 一 般 有 
自 定 义 安装 路 径 、 选 择 自己 需要 的 组 件 等 ， 这 个 步骤 和 默认 安装 的 步骤 并 不 相同 。 
以 安装 软件 的 步骤 为 例 ， 步 又 如 下 : 
步骤 014 开始 安装 软件 。 
步骤 024 选择 安装 方式 A 或 B， 如 果 选 择 A 就 执行 第 5 步 ， 如 果 选 择 B 就 执行 第 3 步 。 
步骤 03 选择 路 径 。 
步骤 04 4 选择 组 件 。 
步 野 054 安装 。 
步骤 06 安装 完成 。 


用 图 3.2 表示 这 个 步骤 。 





第 1 步 : 开始 安装 软件 























第 4 步 : 选择 组 件 


第 5 步 : 安装 
| 


第 6 步 : 安装 完成 


























图 3.2 选择 结构 
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在 Python 代码 中 ， 用 站 语句 表示 选择 结构 ， 后 面 我 们 会 详细 介绍 。 


3.1.3 ”循环 结构 


循环 结构 是 在 某 个 条 件 下 不 断 执行 一 段 代 码 ， 直 到 条 件 不 再 满足 。 比 如 假设 有 10 万 元 现金 ， 
要 通过 自动 存款 机 存 入 银行 , 但 每 次 只 能 存 入 2 万 元 ， 这样 我 们 就 会 重复 5 次 存 钱 的 操作 ， 直 到 存 
完 。 循 环 结构 必须 有 两 个 要 素 : 

e@ 设置 条 件 。 

@ 要 重复 执行 的 代码 。 

我 们 以 存 钱 为 例 ， 条 件 是 小 于 等 于 10 万 元 的 情况 下 重复 执行 存 钱 操作 ， 步 骤 如 下 : 

步骤 014 判断 是 否 小 于 等 于 10 万 元 。 

步骤 024 放 入 2 万 元 。 

步骤 034 后 台 确 认 存款 成 功 ， 然 后 返回 第 1 步 ， 继 续 判 断 。 








步骤 044 完成 。 
用 图 3.3 表示 这 个 步骤 。 
四 
判断 是 否 小 于 FT 10 万 元 
| | 
继续 判断 第 2 步 : 放 入 2 万 元 
第 3 步 ， 后 台 确 认 存款 成 功 之 
第 4 步 : 完成 
图 33 循环 结构 循环 结构 


在 Python 代码 中 ， 用 while 和 for 语句 表示 循环 结构 ， 后 面 我 们 会 详细 介绍 。 


3.2 用 if 选择 


论语 句 是 流程 控制 中 的 选择 结构 ,用 于 在 程序 中 做 选择 ,选择 后 会 执行 不 同 的 程序 。 本 节 将 介 
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绍 府 语句 的 不 同 使 用 形式 。 


3.2.1 选择 语句 格式 


让 语句 有 多 种 形式 ， if...else 是 其 中 比较 简单 的 一 种 。 除 此 之 外 ， 还 有 证 ..elif...else， 或 者 仅 
仅 一 个 单独 的 让 语句 ， 但 是 没有 单独 的 else 语句 。if...else 语句 的 语法 形式 如 下 : 


if expr: 





else: 


首先 要 注意 ， 关 键 词语 句 的 后 面 用 冒号 结束 ，Python 用 同一 缩 进 表示 同一 代码 块 ， 因 此 这 个 
冒号 下 面相 同 的 缩 进 语句 就 是 选择 语句 的 代码 块 。 

expr 是 判断 条 件 ， 可 以 是 任何 表达 式 或 函数 的 返回 结果 ， 结 果 的 类 型 必须 是 布尔 型 (True 或 
False) 。 当 返回 True 时 ， 执 行 让 代码 块 中 的 语句 ， 否则， 执行 else 代码 块 中 的 语句 。expr 判断 条 
件 时 常用 的 运算 符 如 表 3.1 所 示 。 


表 3.1 判断 条 件 时 常用 的 运算 符 





人 
小 于 或 等 于 





if...else 属于 “二 选 一 ”执行 ， 也 有 “多 选 一 ”执行 的 用 法 ， 就 是 f...elif...else， 其 表达 的 形 
式 如 下 : 


exprl 和 expr2 的 意义 和 上 面 是 一 样 的 。 当 exprl 返回 True 时 ， 执 行 站 代码 块 ， 否 则 继续 判断 
expr2 的 返回 ， 如 果 是 True 就 执行 expr2 代码 块 中 的 语句 ;否则 继续 执行 else 代码 块 中 的 语句 。 当 
然 ， 这 种 格式 并 不 限于 三 选 一 ， 还 可 以 有 更 多 的 选择 分 支 ， 只 需要 多 加 elif 语句 便 可 。 
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3.2.2 选择 语句 详解 
举例 如 下 : 
【示例 3-1] 
01 ”print (" 请 选择 你 目前 的 开发 工作 :") 
02 print ("1.Windows 桌面 应 用 程序 ") 
03 ”print ("2 .Web 应 用 程序 ") 
04 ”print ("3.Web 服务 ") 
05 
06 “# 读 取 用 户 的 输入 字符 
07 “numl=int (input (" 请 输入 你 的 选择 :") ) 
08 
09 “# 浏 断 用 户 的 输入 
10 if numl==1: 
得 还 print (" 你 目前 的 开发 工作 是 :1.windows 桌面 应 用 程序 ") 
12 elif numl == 2: 
3 print ("你 目前 的 开发 工作 是 :2 . Web 应 用 程序 ") 
14 elif numl== 3: 
15 print ("你 目前 的 开发 工作 是 :3 .Web 服务 ") 
16 else: 
17 print ("对 不 起 你 选择 错误 , 下 次 请 输入 1-3 之 间 的 整数 ") 
执行 结果 如 图 3.4 所 示 。 
============ RESTART: D:/if.Py ========= ============] 
发 工作 区 
5 
误 ,下 次 请 输入 1-3 之 间 的 整数 
图 3.4 选择 语句 应 用 
3.2.3 选择 语句 的 伐 套 
选择 语句 的 民 套 语法 如 下 : 
if exprl 
让 ep 
else 
BA pds 
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我 们 看 一 下 判断 间 年 的 例子 : 
@ ”普通 年 能 被 4 整除 且 不 能 被 100 整除 的 为 闫 年 (如 2004 年 就 是 头 年 ，1900 年 不 是 头 年 )。 
”世纪 年 能 被 400 整除 的 是 闫 年 (如 2000 年 是 半年 ，1900 年 未 是 闫 年 ). 

下 面 演示 : 

【示例 3-2】 


01 。 # 浏 断 闻 年 
02 “numl=int (input ("请 输入 一 个 年 份 : ") ) 
03 if numl%100 ==0: 


04 if numl%400==0: 

05 print ("是 疼 年 ") 
06 else: 

07 print (" 不 是 半年 ") 
08 else: 

09 if numl%4==0: 

10 if numl$%100 !=0: 
a Print(" 是 半年 ") 
12 else: 

13 print (" 不 是 半年 ") 
结果 如 图 3.5 所 示 。 





图 3.5 榜 套 选择 语句 应 用 


3.3 用 while 循环 


循环 语句 用 于 解决 多 次 重复 性 的 计算 问题 ， 如 穷 举 问题 和 人 迭代 问题 ， 该 语句 充分 发 挥 了 计算 
机 的 快速 计算 能 力 。Python 提供 了 while 和 for 两 种 循环 形式 ， 本 节 先 来 介绍 while。 


3.3.1 ”while 语句 基本 格式 


while 循环 语句 的 语法 如 下 : 


while expr 
“语句 1 
-语句 2 


while 循环 语句 首先 对 expr 的 返回 值 进行 判断 ， 如 果 为 True， 就 执行 代码 块 中 的 语句 ， 反 之 ， 
一 次 也 不 执行 。 如 图 3.6 所 示 为 while 语句 执行 的 流程 图 。 
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执行 语句 1、2 等 循环 结束 | 





图 3.6 while 语句 流程 图 


3.3.2 ”while 语句 的 应 用 


前 面 if 选择 判断 用 户 工作 的 例子 ， 用 户 输 入 一 次 就 退出 程序 了 ， 这 里 加 入 一 个 循环 ， 让 用 户 
可 以 输入 多 次 。 
【示例 3-3】 


01 ”print ("请 选择 你 目前 的 开发 工作 :") 

02 ”Print ("0. 退 出 ") 

03 ”print ("1 .Windows 桌面 应 用 程序 ") 

04 ”print ("2.Web 应 用 程序 ") 

05 print ("3.Web 服务 ") 

06 

07 flag = True # 判断 的 标志 
08 while (flag) : 

09 # 读 取 用 户 的 输入 字符 

10 numl=int (input ("请 输入 你 的 选择 :")) 


11 
12 # 判 断 用 户 的 输入 

13 if numl==1: 

14 print ("你 目前 的 开发 工作 是 :1 .windows 桌面 应 用 程序 ") 
15 elif numl == 2: 

16 print ("你 目前 的 开发 工作 是 :2 .Web 应 用 程序 ") 

17 elif numl== 3: 

18 print (" 你 目前 的 开发 工作 是 :3 .Web 服务 ") 

19 elif numl== 0: 

20 flag=False 

21 else: 

22 print ("对 不 起 你 选择 错误 ,下 次 请 输入 1-3 之 间 的 整数 ") 


首先 需要 将 flag 设 为 True， 这 样 才 能 通过 判断 执行 while 代码 块 中 的 语句 。 当 用 户 输入 0 时， 
将 flag 设置 为 False， 这 样 while 循环 就 不 会 继续 了 。 代 码 结果 如 图 3.7 所 示 。 








.Web 应 用 程序 
. Web 服务 


2 
本 





3.7 while 语句 应 用 


3.3.3 ”无限 循环 〈 死 循环 ) 


当 while 的 条 件 永远 为 真 (True) 时 ， 程 序 就 会 进入 无 限 循 环 ， 也 称 死 循 环 。 比 如 去 掉 上 一 节 
代码 的 flag， 修 改 代码 如 下 : 
【示例 3-4】 


01 ”print ("请 选择 你 目前 的 开发 工作 :") 
02 print ("0. 退 出 ") 

03 ”print ("1.Windows 桌面 应 用 程序 ") 
04 ”print ("2.Web 应 用 程序 ") 

05 “print ("3.Web 服务 ") 

06 while (True): 


07 # 读 取 用 户 的 输入 字符 

08 numl=int (input (" 请 输入 你 的 选择 :") ) 

09 

10 # 判 断 用 户 的 输入 

11 if numl==1: 

12 print ("你 目前 的 开发 工作 是 :1 .Windows 桌面 应 用 程序 ") 
13 elif numl == 2: 

14 print ("你 目前 的 开发 工作 是 :2 .Web 应 用 程序 ") 

15 elif numl== 3: 

16 print (" 你 目前 的 开发 工作 是 :3.Web 服务 ") 

sy else: 

18 Print (" 对 不 起 你 选择 错误 , 下 次 请 输入 1-3 之 间 的 整数 ") 


因为 这 里 去 掉 了 输入 0 后 切换 flag 的 代码 ， 所 以 循环 条 件 一 直 是 True， 即 无 限 循环 ， 此 时 无 
论 输 入 什么 内 容 ， 程 序 都 会 一 直 要 求 用 户 进行 选择 ， 如 果 要 退出 程序 ， 可 使 用 Ctrl+C 组 合 键 。 最 
终结 果 如 图 3.8 所 示 。 

一 般 的 循环 程序 ， 写 作 时 都 要 求 开发 人 员 注意 无 限 循环 的 漏洞 ， 应 尽量 避免 ， 但 有 一 种 特殊 
情况 ， 如 果 无 限 循环 用 在 客户 端 /服务 器 端的 交互 编程 中 ， 会 有 更 好 的 作用 。 因 为 服务 器 端 需要 连 
续 运行 ， 这 样 客户 端 才 可 以 在 需要 时 与 其 进行 通信 。 
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3.8 无 限 循环 


3.3.4 带 else 的 while 循环 


前 面 已 经 学 过 ， 论 条件 不 满足 时 ， 可 以 执行 else 语句 块 ， 当 while 条 件 不 满足 时 ， 也 可 以 执行 
else 语句 块 。 语 法 如 下 : 


while expr 
“语句 1 
“语句 2 
else: 
“语句 1 
-语句 2 


考虑 一 个 简单 的 例子 ， 输 出 0、1、2、.…、9， 如 果 超 过 9， 就 输出 “超过 9 了 ”: 
numl = 0 # 判 断 的 标志 
while (num1l<10) : 
print (numl) 
else: 


print ("超过 9 了") 


这 段 代码 看 上 去 很 简单 ， 先 是 设置 一 个 初始 值 为 0， 再 判断 这 个 值 ， 然 后 决定 不 同 的 输出 。 当 
运行 这 段 代码 后 ， 发 现 一 直 输 出 0， 成 了 无 限 循 环 。 这 是 因为 numl 的 值 一 直 没 有 变化 ， 所 以 需要 
在 它 输出 一 次 结果 后 自动 加 1。 

【示例 3-5】 

01 numl = 0 # 判 断 的 标志 

02 while (numl<10) : 

03 ”print (numl) 

04 numl=num1l+1 

05 else: 

06 print ("超过 9 了 ") 
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这 样 就 可 以 输出 我 们 需要 的 结果 了 ， 如 图 3.9 所 示 。 





9 了 


y 厂 人 AMN 人 DO 
v 


Ne 





3.9 带 else 的 while 循环 应 用 


在 while 语句 中 , 经常 需 要 改变 变量 的 值 ， 这 个 时 候 就 会 用 到 numl=numl+1 或 numl=numl-1 
之 类 的 表达 式 ， 这 就 是 变量 递增 或 递减 的 语句 。Python 也 支持 更 简化 的 方式 ， 就 是 += 和 -=。 也 就 
是 说 ， 下 面 的 语句 是 等 价 的 ， 读 者 可 以 试 一 试 : 

® numl+=l 和 numl=numl+1l。 

e numl-=1 和 numl=numl-1。 


3.4 用 for 循环 


for 循环 主要 用 于 循环 访问 各 种 数据 序列 内 的 元 素 ， 如 列表 、 元 组 等 ， 本 节 将 学 习 for 循环 。 





3.4.1 ”for 语句 基本 格式 


下 面 是 for 语句 的 语法 形式 : 
for <variable> in <sequence>: 
语句 1 
语句 2 
for...in 是 基本 结构 ，variable 是 一 个 变量 ,代表 sequence 这 个 序列 里 的 每 个 值 。 值 的 读 取 顺 序 
默认 是 它们 在 序列 里 的 排列 顺序 。for 语句 最 后 不 要 忘记 冒号 。 


3.4.2 for 语句 的 应 用 


下 面 先 定义 一 个 列表 list1， 然 后 使 用 for 循环 逐个 输出 列表 的 内 容 : 

stul=[' 张 三 ', 20, ' 男 ', ' 上海 人 '] 

for 1 in stul: 

print (1) 

上 述 结果 如 图 3.10 所 示 。 代 码 很 简单 ， 英 文字 母 1 就 是 一 个 变量 ， 代 替 每 次 循环 中 列表 中 的 
当前 元 素 。 比 如 第 一 次 循环 时 ，1 的 值 就 是 张 三 ， 第 2 次 循环 时 ，1 的 值 就 变 成 了 20。 
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3.10 for 语句 应 用 1 


这 里 的 循环 只 是 输出 stul 列表 的 内 容 ， 并 没有 改变 其 内 部 存储 方式 。 那 是 否 可 以 在 循环 中 改 
变 列 表 的 值 呢 ? 下 面 做 一 个 试验 ， 当 输出 年 龄 时 ， 将 其 修改 为 30。 如 果 不 设 置 条 件 ， 那 么 每 次 循 
环 都 会 修改 年 龄 ， 因 此 一 定 要 有 一 个 判断 条 件 ， 这 样 才能 只 修改 列表 中 的 一 项 。 

【示例 3-6】 


01 stul=[' 张 三 ',20,' 男 ', ' 上 海 人 '] 
02 for 1 in stul: 


03 if (type (1) ==int) : 
04 stul[1]=30 # 修 改 年 龄 
05 Print (1) 


06 print(stul) 

在 for 循环 中 虽然 改变 了 年 龄 ， 因 为 输出 的 是 1, 1 并 没有 改变 ， 所 以 循环 输出 中 的 年 龄 并 没有 
变化 ， 但 列表 中 的 内 容 已 经 发 生变 化 了 ， 在 循环 外 用 print(stul1) 输 出 列表 时 可 以 看 到 ， 年 龄 发 生 了 
变化 ， 如 图 3.11 所 示 。 

这 里 还 用 到 了 type(1)==int， 用 于 判断 1 的 类 型 是 不 是 整 型 ， 如 果 是 ， 就 返回 True， 和 否则 返回 


False。 





3.11 for 语句 应 用 2 


3.4.3 for 与 range 结合 遍历 数字 序列 


Python 提供 了 range 函数 , 用 来 表示 一 系列 整数 , 也 可 以 看 作 一 组 数字 列表 , 其 语法 形式 如 下 : 
range (start, end, step) : 
各 参数 的 意义 如 下 : 


@ start: 计数 从 start 开始 ， 默 认 是 从 0 开始 ， 如 range(6) 等 价 于 range(0,6)。 
@ end: 计数 到 end 结束 ， 但 不 包括 end， 如 range(0.6) 是 [0, 1, 2, 3, 4,5]， 没 有 6。 
@ step: 每 次 跳跃 的 间距 ， 默 认为 1， 如 range(0,6) 等 价 于 range(0, 6, 1)。 


首先 在 解释 器 中 输入 几 个 range 函数 来 学 习 各 参数 的 意义 ， 如 图 3.12 所 示 。 








range 5) 
range (0, 5) 
>>> 
>>> 1 ene)) 
[0,1 3, 
>>> 1 6,2)) 
[0,2, 4] 
2 tse, i 


>>> 站 





图 3.12 for 与 range 结合 应 用 


如 果 直 接 在 解释 器 中 输入 range(5)， 返 回 的 是 object 类 型 ， 也 就 是 一 个 对 象 ， 并 不 是 我 们 需 
要 的 列表 ， 这 个 时 候 可 以 使 用 list 输出 数字 序列 。 





下 面 在 for 循环 中 使 用 range: 


for i in range(6) : 
print (1) 


输出 结果 : 


um wb ho 


代码 是 不 是 看 起 来 更 简洁 了 呢 ? 也 可 以 设置 range 的 步 长 : 


for i in range(0,6,3) : 
print (i) 


输出 结果 : 


0 
3 


3.5 中断 语 句 break、continue 


循环 一 旦 执行 起 来 ， 除 了 使 用 Ctrl+C 组 合 键 “ 暴 力 ” 中 断 外 ， 还 可 以 使 用 Python 提供 的 中 断 
语句 break、continue 控制 循环 的 执行 次 序 ， 或 者 说 执行 方向 。 本 节 将 介绍 这 两 个 语句 。 


3.5.1 break 语句 


循环 执行 过 程 中 遇 到 break 语句 ， 就 会 跳出 循环 不 再 执行 下 面 的 语句 。 下 面 在 一 个 循环 中 使 用 
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break， 当 i 为 3 时 跳出 循环 : 


【示例 3-7】 

01 i=0 

02 while i<5: 

03 if 1 w= 3: 

04 print ("i=",i) 
05 break 

06 if i w= 4: 

07 print ("i=",i) 
08 i+=1 

09 else: 

10 print ("i 越界 了 : ",i) 


11 print("OVER") 


代码 执行 结果 如 图 3.13 所 示 。 当 使 用 break 时 ， 直 接 跳出 了 循环 。 注意， 代码 没有 执行 1 为 4 
的 语句 块 ， 也 没有 执行 else 语句 块 。 





图 3.13 break 语句 应 用 


3.5.2 ”continue 语句 


continue 语句 与 break 语句 略 有 差异 。 它 用 于 中 断 循环 中 的 某 次 执行 ， 而 继续 下 次 循环 。 还 是 
以 break 中 的 代码 为 例 ， 只 修改 break 为 continue。 


【示例 3-8】 

01 i=0 

02 while i<5: 

03 if i == 3: 

04 print ("i=",1) 
05 continue # 修 改 这 1 行 
06 if i == 4: 

07 print ("i=",1) 
08 i+=1 

09 else: 

10 print ("i 越界 了 : ",i) 


11 print ("OVER") 
很 不 幸 ， 执 行 结果 如 图 3.14 所 示 ， 上 述 代码 变 为 一 个 无 限 循 环 ， 到 底 是 什么 原因 呢 ? 
continue 会 中 断 本 次 循环 ， 继 续 下 一 次 循环 ， 但 因为 中 断 本 次 循环 后 ， 本 次 循环 后 面 的 it=1 
这 条 语句 并 没有 执行 ， 所 以 i 还 是 3， 就 造成 了 无 限 循环 。 下 面 调整 一 下 it=1 的 位 置 : 
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rr 
[ON 
wwwwwwwwwwwwwwwwwwowd 


dm 3 
i= 3Traceback (most _ recent call last) 
File “D:/break.py’, line 4, in nodule 
Print (“i=", 1 








KeyboardInterrupt 
>>> 
图 3.14 continue 语句 应 用 

【示例 3-9】 
01 i=0 
02 while i<5: 
03 i+=1 # 放 到 开始 位 置 
04 if 1 == 3: 
05 print ("i=",i) 
06 continue 
07 if i == 4: 
08 print ("i=",i) 
09 else: 
10 print ("i 越界 了 : ",i) 
11 print ("OVvER") 


此 时 再 测试 一 下 ， 代 码 就 正常 运行 了 。 


3.6 ”循环 实战 : 九 九 乘 法 表 


前 面 学 过 for 与 range 组 合 实现 的 循环 ， 正 好 适合 来 实现 一 个 九 九 乘法 表 的 案例 。 九 九 乘法 口 
诀 表 是 将 10 之 内 的 小 数 互 相 相 乘 的 结果 以 三 角形 的 样式 打印 出 来 。 在 本 节 的 应 用 中 ， 不 只 是 要 将 
九 九 乘法 口诀 表 以 三 角形 的 样式 打印 出 来 ， 还 需要 以 倒 三 角形 打印 九 九 乘法 口诀 表 。 


以 三 


角形 、 倒 三 角形 的 样式 打印 九 九 乘法 口诀 表 ， 关 键 的 编程 要 点 有 两 个 : 


® ”获得 所 有 10 之 内 的 互 乘 的 运算 式 和 结果 。 

日 ”把 运算 式 和 结果 排版 成 正三 角 和 倒 三 角 的 形式 。 

要 获得 所 有 10 之 内 的 互 乘 的 运算 式 和 结果 , 比较 简单 的 方法 是 通过 循环 实现 , 通过 两 个 变量 ， 
让 它们 都 在 10 之 内 双重 循环 , 然后 计算 它们 的 结果 ,这样 就 可 以 得 到 10 之 内 所 有 的 运算 式 和 结果 ， 
代码 如 下 : 
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函数 getnine 使 用 了 一 个 双重 循环 ， 该 循环 的 作用 就 是 将 10 之 内 互 乘 的 运算 式 和 结果 都 存放 
到 列表 lis 中 ， 这 样 就 可 以 在 getnine 的 返回 值 里 获得 所 有 互 乘 的 运算 式 和 结果 。 调 用 结果 如 下 : 





函数 是 一 组 已 经 定义 好 的 代码 ， 我 们 可 以 直接 执行 。 比 如 前 面 音节 经 常用 到 的 print， 就 是 一 
个 Python 定义 好 的 函数 ， 这 一 类 我 们 称 为 Python 的 内 置 函 数 。 除 了 内 置 函 数 ， 开 发 人 员 可 以 定义 
自己 的 函数 ， 本 章 将 介绍 如 何 定义 函数 及 函数 的 各 种 参数 。 


4.1 ”使 用 函数 


本 节 介绍 定义 函数 的 语法 、 函 数 的 返回 值 ， 以 及 如 何在 函数 中 嵌 套 函数 。 
4.1.1 定义 函数 


Python 中 使 用 def 定义 函数 ， 语 法 如 下 : 
def funname( paras ) : 
语句 1 
语句 2 
return [expr] 
funname 是 函数 的 名 称 ，paras 是 函数 的 参数 ， 可 以 有 多 个 ， 也 可 以 没有 。 多 个 参数 之 间 用 喜 
号 间隔 。retum 是 函数 的 返回 语句 ， 后 面 可 以 是 表达 式 或 参数 的 具体 值 。 
现在 定义 一 个 求 和 的 函数 ， 输 入 两 个 参数 a 和 b， 然 后 a 和 b 的 和 : 


【示例 4-1】 
01 gef suml (a,b): 
02 s=atb 


03 return s 
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04 
05 a,b=3,20 
06 print("atb=",suml (ab) ) 


函数 名 称 为 sum1， 参 数 为 a 和 b， 返 回 值 为 s。 当 调用 函数 时 ， 需 要 为 其 传 入 a、b 参数 。 本 


例 使 用 同一 行 赋 值 的 方法 为 a 和 b 赋值 ， 然 后 使 用 sum1(a,b) 调 用 函数 。 最 终结 果 为 : 


atb= 23 
函数 的 定义 有 以 下 几 个 注意 事项 : 
(1) 函数 内 容 以 冒号 开始 ， 内 容 统一 缩 进 。 
(2) 函数 的 参数 必须 放 在 0 中 ，() 后 面 紧 跟 冒 号 。 
(3) 函数 的 内 容 以 retum 结束 ， 如 果 retum 或 返回 值 为 None， 最 终 返回 值 都 会 是 None。 
(4) 默认 情况 下 ， 参 数值 和 参数 名 称 是 按 函 数 声明 中 定义 的 顺序 匹配 的 。 


4.1.2 函数 的 返回 值 


函数 返回 值 是 可 有 可 无 的 ， 先 创建 一 个 空 的 函数 : 


def store() : 
Pass 
print(store()) #None 


这 里 的 pass 语句 是 一 个 占 位 符 ， 表 示 什么 也 不 做 。 这 是 一 个 没有 返回 值 的 函数 ， 当 我 们 输出 


函数 的 值 时 ， 显 示 None。 


函数 也 可 以 有 多 个 返回 值 ， 通 过 判断 语句 决定 要 返回 哪个 值 。 举 例如 下 : 
【示例 4-2】 


01 def store (food) : 


02 if food=='bread' : 
03 return 10 

04 if food=='cheese': 
05 return 20 

06 else: 

07 return 0 

08 


09 “print (" 您 选择 的 价格 是 ",store('cheese')) 
定义 一 个 食品 函数 store， 输 入 一 个 参数 food 决定 用 户 选择 的 哪 种 食品 。 如 果 是 bread， 返 回 


价格 为 10; 如 果 是 cheese， 返 回 价格 为 20; 如 果 都 不 是 ， 表 示 商 店 没有 这 个 商品 ， 返 回 价格 为 0。 
本 例 传 入 的 参数 是 cheese， 所 以 输出 结果 : 


您 选择 的 价格 是 20 


4.1.3 函数 的 俯 套 


定义 函数 时 ， 也 可 以 在 函数 中 调用 其 他 的 函数 ， 这 种 情形 称 之 为 函数 的 嵌 套 。 下 面 定 义 两 个 


函数 ， 在 第 2 个 函数 中 调用 第 1 个 函数 。 





【示例 4-3】 
01 def funl(): 
02 print ("fun1") 
03 
04 def fun2(): 
05 fun1() 
06 Print("fun2") 
07 
08 fun2() 
运行 结果 是 : 
funl 
fun2 


4.2 ” 畏 数 的 参数 


前 面 常 使 用 的 print 函数 是 输出 指定 的 内 容 ， 这 个 指定 的 内 容 就 是 函数 的 参数 。Python 中 函数 
的 参数 有 很 多 不 同 的 定义 ， 如 形 参 、 实 参 、 默 认 参 数 、 必 要 参数 、 关 键 字 参 数 、 不 定 长 参数 等 。 


4.2.1 形 参 、 实 参 


定义 函数 时 ， 函 数 的 参数 数量 并 不 限制 ， 可 以 有 多 个 ， 也 可 以 没有 。 函 数 在 定义 时 的 参数 ， 
没有 具体 的 数值 ， 我 们 称 之 为 形式 参数 〈 简 称 形 参 ) 。 函 数 在 调用 时 给 这 些 参数 赋予 实际 的 值 ， 这 
个 使 用 给 出 的 参数 就 是 实际 参数 〈 简 称 实 参 ) 。 

比如 定义 suml 函数 时 ， 参 数 a 和 b 就 是 形 参 。 当 调用 suml 函数 时 ， 给 a、b 分 别 赋值 ， 这 个 
时 候 的 a 和 b 就 是 实 参 。 参 数 的 名 字 也 可 以 任意 命名 : 

def suml(a,b): 


s=atb 
return s 


xry=3,20 
print ("xty=", suml (x, y) 


这 样 就 更 直观 了 ，a 和 b 是 形 参 ，x 和 y 是 实 参 。 


4.2.2 ”必要 参数 


函数 定义 时 有 几 个 参数 ， 调 用 时 就 需要 给 出 几 个 参数 ， 这 些 参数 称 之 为 必要 参数 (required) 。 
比如 下 面 这 段 代 码 ，a 和 b 就 是 必要 参数 。 
【示例 4-4】 


01 def suml (avb) : 
02 S=a+b 
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03 return s 


05 x,y=3,20 
06 print("x+ty=",suml (x,y)) 


假如 调用 函数 时 只 给 出 一 个 参数 : 


X=3 
print("x+ty=",suml (x)) 


调用 时 ， 就 会 报错 ， 如 图 4.1 所 示 





提示 缺少 了 一 个 必要 的 参数 b。 


== RESTART: D: /funcl.py 
call last) 
， line 47, in <module> 















print ("xty=",s ) 
0 EE missing 1 required positional argument: ’b’ 
>>> 





图 4.1 参数 不 对 就 报错 


4.2.3 ”有 默认 值 的 参数 


在 定义 函数 时 ， 可 以 直接 为 函数 的 参数 设置 默认 值 ， 语 法 如 下 : 


def funname ( parasl, paras2=100): 
语句 1 
语句 2 


return [expr] 


paras2 参数 直接 赋值 ， 这 就 是 参数 的 默认 值 。 如 果 函 数 被 调用 时 没有 传递 此 参数 ， 就 使 用 默认 
值 代替 。 


设置 默认 值 的 参数 必须 放 在 最 后 ， 否 则 程序 会 报错 。 





下 面 举 例 说 明 : 


【示例 4-5】 

01 def suml (a,b=100): 

02 " 求 和 函数 " 

03 s=atb 

04 return s 

05 x=20 

06 print ("x 的 和 ", suml (x)) 
输出 结果 为 : 

x 的 和 120 


当 为 参数 设置 默认 值 后 , 调用 函数 suml 时 不 需要 再 为 参数 b 赋值 , 会 自动 调用 b 的 默认 值 进 
行 求 和 。 如 果 传 入 了 参数 ， 就 会 按 实际 传 入 参数 的 值 进 行 求 和 : 





【示例 4-6】 
01 def suml (a,b=100): 
02 " 求 和 函数 " 
03 s=a+b 
04 return s 
05 x,y=3,20 
06 print("xty=",suml (x,y)) #23 


4.2.4 ”关键 字 参 数 


函数 定义 时 的 参数 顺序 就 是 调用 时 的 参数 顺序 。 如 果 在 调用 函数 时 ， 使 用 与 参数 相同 的 名 字 
传递 参数 ,这 种 就 称 为 关键 字 参 数 ， 此 时 因为 传递 参数 名 字 已 经 是 确认 的 ， 所 以 也 可 以 不 拘泥 于 函 
数 定义 时 的 参数 顺序 。 

上 面 这 段 话 可 能 理解 起 来 有 些 困难 ， 还 是 先 看 一 段 程序 : 


【示例 4-7】 

01 def store (food,Price) : 
02 if food=='bread' : 
03 return price*0.8 
04 if food=='cheese': 
05 return price*0.5 
06 else: 

07 return 0 

08 


09 strl=store('cheese',20) 

10 ”print ("您 选择 的 折 后 价格 是 ", str1) 

商店 要 打折 了 ， 如 果 是 bread 就 打 8 折 ， 如果 是 cheese 就 打 5 折 。 上 述 代 码 是 一 个 正常 的 参数 
传递 ， 参 数 的 顺序 和 函数 定义 的 一 致 。 

现在 我 们 使 用 关键 字 参 数 price=20、food-'cheese'， 将 参数 传递 的 顺序 颠倒 : 

【示例 4-8】 


01 def store (food,price) : 


02 if food=='bread': 
03 return price*0.8 
04 if food=='cheese': 
05 return price*0.5 
06 else: 

07 return 0 

08 


09 strl=store(price=20,food='cheese') 

10 print ("您 选择 的 折 后 价格 是 ", str1) 

此 时 运行 程序 会 发 现 ， 最 后 的 输出 结果 相同 。 

关键 字 参 数 一 定 要 与 函数 定义 时 的 参数 名 字 相 同 ， 如 果 不 同 (将 food 改 为 foodd) ， 就 会 提 
示 错 误 ， 如 图 4.2 所 示 。 提 示 有 个 关键 字 参 数 foodd 不 正确 。 
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4.2.5 


如 果 在 定义 函数 时 无 法 确定 具体 的 参数 , 就 可 以 使 用 * 代 替 一 组 参数 , 这 种 称 为 不 定 长 参数 (可 








Tr st r 
File “D: /funcl.py”, 
strl=store (price=20, foodd=’ cheese’ ) 
ee storel) got an nexpected keyword argument 'foodd’ 
>>> 








4.2 关键 字 参 数 名 字 不 对 就 报错 


不 定 长 参数 〈 可 变 参数 ) 


变 参 数 ) ， 使 用 语法 如 下 : 


def funname([paras,] * paras tuple ): 


语句 1 
语句 2 


return [expr] 


不 定 长 参数 在 输出 时 ， 可 以 使 用 for..in 语句 ， 这 样 即使 不 知道 有 儿 个 参数 ， 也 可 以 通过 遍历 


的 方式 逐个 输出 。 


下 面 举例 ， 

【示例 4-9】 

01 def myprint (x, *y): 

02 for & in yx 

03 print (i) 

04 print (x) 

05 

06 myprint('end',30,40,50) # 调 用 函数 


这 里 定义 *y 代表 多 个 变量 ， 调 用 myprint 函数 时 ， 直 接 在 参数 中 输入 多 个 参数 ， 读 者 可 以 先 


想象 一 下 ， 输 出 的 结果 是 不 是 30、40、50、end 呢 ? 
输出 结果 是 : 


每 个 参数 输出 都 换行 , 如 何 才 能 输出 在 一 行 里 呢 ? 在 Python 中 , 使 用 print 函数 输出 都 会 换行 ， 


如 果 不 换行 ， 就 需要 以 下 这 种 形式 ， 即 在 参数 后 面 加 end="")。 
print (x,end="") 
修改 前 面 的 代码 : 
【示例 4-10】 


def myprint (x, *y): 
for i in y: 
print (i,end="") 
print (x, end="") 
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06 myprint('end',30,40,50) 


如 果 end="") 之 间 没 有 空格 ， 输 出 的 结果 就 挤 在 一 起 


304050engd 


在 end="") 之 间 加 上 空格 : end=””， 输 出 的 结果 就 在 一 行 里 了 : 


30 40 50 end 


4.2.6 ”各 种 参数 组 合 


前 面 介绍 了 必要 参数 、 默 认 参 数 、 不 定 长 参数 和 关键 字 参 数 ， 这 些 参 数 可 以 一 起 使 用 ， 或 者 
只 用 其 中 某 些 。 使 用 的 时 候 要 注意 ， 参 数 定义 的 顺序 必须 是 : 必 选 参数 、 默 认 参 数 、 可 变 参数 和 关 
键 字 参数 。 

比如 定义 一 个 函数 ， 包 含 必要 参数 、 默 认 参 数 、 不 定 长 参数 和 关键 字 参 数 

def func(la, b, c=10, *args, **kw): 

Print 'a =', ay 'b =', b, 'c =', cr 'args =', args, 'kw = 一" kw 

在 函数 调用 的 时 候 ，Python 解释 器 会 自动 按照 参数 位 置 和 参数 名 把 对 应 的 参数 传 进去 。 我 们 
在 解释 器 中 调用 看 看 : 

>>> func(1, 2) 

a=lb=2c=0 args=()kw={} 

>>> func(1l, 2, c=3) 

a=lb=2c=3args=()kw= {} 

>>> func(1l, 2, 3, 'a', 'b') 

a=lb=2c=3args= ('a', 'b') kw = {} 

>>> func(1l, 2, 3, 'a', 'b', x=26) 

a=lb=2c=3 args= ('a', 'b') kw = {'x': 26} 

因此 ， 对 于 任意 函数 ， 都 可 以 通过 类 似 func(*args, **kw) 的 形式 调用 它 ， 无 论 它 的 参数 是 如 何 
定义 的 。 





4.3 全 局 变量 、 局 部 变量 


提 到 全 局 变量 或 局 部 变量 ， 就 得 讲解 一 下 变量 生命 周期 的 概念 。 变 量 的 生命 周期 就 是 变量 的 
有 效 期 。 在 讲解 本 节 之 前 , 读者 先 思考 一 个 问题 : 在 函数 中 定义 的 变量 , 在 函数 外 是 否 能 调用 ? 函 
数 外 的 变量 在 函数 内 重新 被 赋值 后 ， 回 到 函数 外 后 变量 的 值 是 变化 前 的 还 是 变化 后 的 ? 


4.3.1 全 局 和 局 部 的 概念 


变量 在 整个 程序 执行 过 程 中 都 有 效 ， 它 的 生命 周期 是 整个 程序 的 执行 过 程 ， 这 类 变量 我 们 称 
之 为 全 局 变量 。 
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在 函数 里 定义 的 变量 ， 只 在 调用 函数 时 期 内 有 效 ， 函 数 调用 结束 后 ， 它 的 生命 周期 也 就 终止 


了 ， 这 类 变量 我 们 称 之 为 局 部 变量 。 也 就 是 说 ， 这 个 变量 的 作用 域 《有效 期 ) 只 


4.3.2 ”函数 中 局 部 变量 的 作用 域 
关于 局 部 变量 的 作用 域 ， 来 看 一 
【示例 4-11】 


01 “# 赋 值 

02 x=0 

03 print(x) 

04 “# 自 定义 printer 函数 
05 def printer () : 

06 Print (x) 


个 简单 的 例子 : 


08 printer() 
09 print(x) 


x 赋值 为 0，3 次 输出 中 x 的 值 保持 不 变 ， 结 果 是 : 
0 


0 
0 


再 自 定义 函数 内 部 ， 修 改 x 的 值 : 
【示例 4-12】 


01 “# 赋 值 

02 x=0 

03 ”Print (x) 

04 ”# 自 定义 printer 函数 
05 def printer(): 


06 x=1 # 修 改 
07 Print (x) 
08 


09 printer() 
10 ”print (x) 


x 在 函数 内 部 的 输出 肯定 是 1， 但 最 后 一 次 在 函数 外 部 的 输出 是 


0 
省 
0 


因为 函数 内 部 的 x 作用 域 只 在 函数 内 部 ， 它 并 不 能 影响 函数 外 部 变量 的 值 。 


4.3.3 global 全 局 变量 


上 一 小 节 的 例子 中 ， 
用 域 影响 更 大 呢 ? 


是 否 也 为 1 呢 ? 


在 函数 执行 时 。 





实际 输出 结果 如 


x 的 值 没 办 法 影响 到 函数 外 ， 那 如 果 程 序 需要 ， 是 否 可 以 想 办 法 让 它 对 作 
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Python 提供 了 global 关键 字 ， 它 的 作用 是 告诉 程序 ， 用 它 定义 的 变量 是 全 局 变量 而 不 是 局 部 
变量 。 修 改 前 面 的 示例 代码 : 

【示例 4-13】 

01 “# 赋 值 

02 x=0 

03 print(x) 

04 “# 自 定义 printer 函数 

05 def printer() : 


06 global x # 修 改 
07 x=1 

08 print (x) 

09 


10 printer() 
11 print (x) 


之 前 的 输出 是 0、1、0， 现 在 执行 一 下 看 看 结果 是 不 是 0、1、1 了 ? 读者 自行 测试 一 下 。 
4.4 匿名 函数 


匿名 函数 ， 从 字义 上 讲解 是 没有 名 字 的 函数 ， 事 实 上 它 也 的 确 没 有 名 字 。 当 代码 大 量 重复 、 
复杂 程度 高 时 ，Python 允许 使 用 匿名 函数 降低 程序 的 复杂 度 ， 增 加 可 读 性 。 本 节 将 学 习 匿 名 函数 。 


4.4.1 使 用 匿名 函数 


Python 使 用 lambda 创建 匿名 函数 ， 语 法 如 下 : 

lambda [parasl [,paras2,..... Parasn] ] :expr 

parasl 是 参数 , 可 以 有 多 个 , 之 前 用 逗号 间隔 。expr 是 表达 式 。 参 数 和 表达 式 之 间 用 冒号 间隔 。 
表达 式 中 可 以 有 控制 语句 〈 如 证 ..else) ， 可 以 有 >、<、=， 也 可 以 是 数学 运算 *、-、/ 等 。 

前 面 曾经 创建 过 一 个 求 和 的 函数 : 


def suml(a,b) : 
S=a+b 
return s 


x1y=3,20 
print ("xty=", suml (x, y)) 


将 上 述 函 数 修改 为 匿名 函数 ， 看 起 来 会 更 加 简洁 : 


suml=lambda x,y:x+y 
print ("xty=", suml (10,50)) 


由 于 lambda 返回 的 是 函数 对 象 构建 的 是 一 个 函数 对 象 ) ， 因 此 需要 定义 一 个 变量 suml 去 
接收 。 输 出 时 直接 调用 sum1， 传 入 需要 的 参数 ， 计 算 结 果 为 : 


x+y= 60 
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使 用 匿名 函数 的 优点 如 下 : 

@ 使 用 lambda 可 以 省 去 定义 函数 的 过 程 ， 让 代码 更 加 精简 。 

@ ”对 于 一 些 抽 象 的 ， 不 会 被 别 的 地 方 再 重复 使 用 的 函数 ， 使 用 ljambda 不 需要 考虑 命名 的 问题 。 
@ 在 某 些 时 候 ， 使 用 lambda 会 让 代码 更 加 容易 理解 。 


4.4.2 匿名 函数 的 参数 默认 值 


匿名 函数 的 参数 和 普通 函数 的 参数 一 样 ， 也 可 以 有 默认 值 ， 比 如 : 


suml=lambda x=1,y=2:x+y 
print ("x+y=", suml ()) #3 





如 果 有 多 个 参数 ， 不 能 只 为 一 个 参数 设置 默认 值 ， 必 须 为 所 有 参数 都 设置 。 


默认 值 可 以 直接 写 在 参数 后 ， 也 可 以 用 0 的 形式 放 在 表达 式 后 面 ， 比 如 : 


suml=(lambda x,y:x+y) (1,2) 
print ("xty=", suml) 


0 内 的 参数 默认 值 的 顺序 与 lambda 表达 式 后 的 参数 顺序 一 致 ， 调 用 时 使 用 变量 的 名 称 suml， 


而 不 是 作为 函数 sum10 调 用 ， 这 和 调用 普通 lambda 匿名 函数 有 所 不 同 。 


一 行 放 管 一 个 皇后 ， 且 能 做 到 在 竖 方向 、 斜 方向 都 没有 冲突 。 
国际 象棋 的 棋盘 如 图 4.3 所 示 。 


著名 的 数学 家 高 斯 提出 : 在 8X8 格 的 国际 象棋 上 摆 放 八 个 皇 
后 ， 使 其 不 能 互相 攻击 


同 





同 


用 () 设 置 默 认 值 时 , 一 定 要 将 lambda 匿名 函数 也 用 () 封 闭 起 来 ,否则 后 面 的 默认 值 会 被 当 作 
表达 式 的 一 部 分 . 





% 
4.5 ”函数 实战 : 八 皇 后 问题 。 ， 
八 皇 后 问题 的 要 求 是 : 在 8X8 国际 象棋 棋盘 上 要 求 在 每 


八 皇 后 问题 是 一 个 古老 而 著名 的 问题 ， 该 问题 是 19 世纪 








1 全 间 环 次 关 于 














， 即 任意 两 个 皇后 都 不 能 处 于 同一 行 、 : 
一 列 或 同一 斜 线 上 ， 问 有 多 少 种 摆 法 。 高 斯 认为 有 76 种 方 图 43 国际 象棋 棋盘 








案 。1854 年 ， 在 柏林 的 象棋 杂志 上 不 同 的 作者 发 表 了 40 种 不 


的 解 ， 后 来 有 人 用 图 论 的 方法 解 出 92 种 结果 ， 计 算 机 诞生 以 后 ， 八 皇后 问题 也 成 为 计算 机 数据 


结构 和 算法 的 经 典 题目 。 
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对 于 这 种 较为 复杂 的 算法 问题 ， 可 以 采用 一 种 逐步 试探 ， 如 果 能 够 继续 前 进 ， 则 更 进一步 ; 
如 果 不 能 ， 就 换个 方面 尝试 ， 这 称 之 为 回溯 法 。 

首先 我 们 来 分 析 一 下 国际 象棋 的 规则 。 对 于 一 个 国际 象棋 的 棋盘 ， 每 一 个 点 ， 我 们 都 用 一 个 
坐标 来 表示 ， 就 采用 图 4.3 一 样 的 坐标 ， 左 下 角 为 (1，1) ， 右 上 角 为 (8，8) ， 那 么 对 于 一 个 皇 
后 (x,y) 能 否 被 男 一 个 皇后 (a,bb) 吃 掉 ， 取 决 于 以 下 4 个 方面 : 

(1) x=a， 两 个 皇后 在 同一 个 行 上 。 

(2) y=b， 两 个 皇后 在 同一 列 上 。 

(3) x+ty=atb， 两 个 皇后 在 同一 斜 向 正方 向 。 

(4) x-y=a-b， 两 个 皇后 在 同一 斜 向 反方 向 。 

有 了 上 面 的 规则 ， 可 以 先 从 第 一 个 皇后 开始 分 析 ， 如 果 将 第 一 个 皇后 放 到 (1，1) 格 中 ， 那 
么 根据 规则 : 

(1) 第 二 皇后 可 以 放 在 (2，3) 、 (2，4) 到 (2，8) 的 任 一 个 ， 现 在 假设 放 到 (2，3) 。 

(2) 第 二 皇后 放 在 〈2，3) 的 话 ， 那 么 第 三 个 皇后 只 有 (3，5) 、 (3，6) 到 (3，8) 这 4 
种 选择 ， 现 在 假设 放 在 (3，5) 。 

(3) 第 三 个 皇后 放 在 (3，5) 的 话 ， 那 么 第 四 个 皇后 只 有 (4，2) 、 (4，7) 、 (4，8) 这 
3 种 可 选择 ， 假 设 放 在 (4，2) 。 

(4) 第 四 个 皇后 放 在 〈4，2) 的 话 ， 那 么 第 五 个 皇后 只 有 (5，4) 和 (3$，8) 这 两 个 地 方 可 
选择 ， 假 设 放 在 (5，4) 。 

(5) 第 五 个 皇后 放 在 了 〈5，4) ， 那 么 第 六 个 皇后 则 没有 安全 的 位 置 可 放 。 

在 摆 到 第 六 个 皇后 时 ， 就 无 法 再 继续 下 去 了 ， 此 时 回 到 放 第 五 个 皇后 的 第 二 个 选择 (5，8) ， 
然后 在 继续 尝试 第 六 个 皇后 ， 发 现 仍然 没有 安全 的 位 置 , 只 好 再 回 到 放 第 四 个 皇后 时 ， 继 续 第 四 个 
皇后 的 其 他 可 能 。 依 次 类 推 ， 不 断 尝试 ， 一 直到 放 最 后 一 个 皇后 。 

这 种 从 第 一 步 开始 尝试 ， 一 步 步 尝试 ， 失 败 了 就 返回 到 上 一 个 步骤 尝试 其 他 可 能 ， 这 就 是 回 
溯 法 。 根 据 上 面 的 分 析 ， 用 回溯 法 解决 8 皇后 问题 的 步骤 为 

(1) 从 第 一 列 开始 ， 为 皇后 找到 安全 位 置 ， 然 后 跳 到 下 一 列 。 

(2) 如 果 在 第 n 列 出 现 死 胡同 ,该 列 为 第 一 列 ， 棋 局 失败 ,否则 后 退 到 上 一 列 ， 在 进行 回溯 。 

(3) 如 果 在 第 8 列 上 找到 了 安全 位 置 ， 则 棋局 成 功 。 

八 皇 后 问题 的 步骤 在 于 三 步 : 找 安全 位 置 ， 继 续 下 一 列 ， 如 果 下 一 列 找 不 到 安全 位 置 ， 则 进 
行 回溯 ， 直 到 八 个 皇后 都 找到 安全 位 置 为 止 。 对 于 程序 设计 来 说 ， 首 先 设计 象棋 棋盘 的 数据 结构 ， 
然后 编写 安全 位 置 的 判断 ， 最 后 撰写 回溯 的 功能 。 


日 ”象棋 棋盘 的 数据 结构 
可 以 用 列表 来 表示 一 个 象棋 棋盘 ， 每 个 列表 中 有 8 个 列表 ， 每 个 列表 有 8 个 元 素 ， 例 如 : 


>>> chess=[[0 for x in range(8)] for x in range(8)] 

>>> Print (chess) 

[[0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0]，[0，0，0，0，0，0，0，0]，[0，0，0，0， 
0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 
0, 0, 0, 0, 0, 0]] 

>>> 


对 于 chess 列表 ， 初 始 元 素 值 均 为 0， 元 素 值 大 于 0 为 不 安全 ，0 为 安全 。 
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e@ ”安全 位 置 的 判断 


根据 象棋 棋盘 数据 结构 的 设计 ， 凡 是 元 素 值 为 0 的 ， 都 是 安全 的 ， 凡 是 元 素 值 不 为 0 的 ， 都 
是 不 安全 的 ， 可 以 使 用 下 面 的 函数 实现 这 个 功能 : 


def judgedanger (chess,x,y): 
if chess [x] [y]==0: 
return True 
else: 
return False 


”回溯 功能 的 实现 


回溯 的 功能 ， 需 要 先 判 断 安全 的 位 置 ， 然 后 将 皇后 放 到 安全 的 位 置 ， 同 时 需要 将 该 皇后 的 吃 
棋 范 围 记录 到 chess 列表 中 ， 这 样 下 一 步 可 以 根据 chess 列表 判断 安全 的 位 置 ， 同 样 的 道理 ， 在 该 
位 置 被 认为 无 效 需要 回溯 的 时 候 ， 将 吃 棋 的 范围 位 置信 息 清除 ， 回 复 到 放 皇 后 之 前 的 状态 。 

实现 记录 吃 棋 范围 信息 的 记录 ， 可 以 使 用 如 下 代码 : 


def setdanger(chess,xry): 
for col in range(len(chess)): 
for row in range (len(chess[0])) : 
if col==x: 
chess [col] [row] +=1 
elif row==y: 
chess [col] [row]+=1 
elif col+rOW==X+Y: 
chess[col] [row] +=1 
elif col-row==x-y: 
chess[col] [row] +=1 
else: 
pass 


上 面 的 代码 中 ， 根 据 皇 后 吃 棋 的 4 个 判断 规则 ， 对 棋盘 列表 的 每 个 位 置 做 判断 ， 对 于 皇后 可 
以 吃 到 的 位 置 ， 将 其 值 加 1， 表 示 该 位 置 不 再 安全 。 

对 于 清除 吃 棋 的 范围 位 置信 息 ， 使 用 相反 的 逻辑 思路 ， 下 面 的 代码 就 可 以 完成 ， 它 和 记录 吃 
围 信息 相反 ， 将 皇后 可 以 吃 到 的 位 置信 息 减 1， 减 到 0， 表 示 该 位 置 安全 ， 可 以 放 皇 后 。 


def erasedanger (chess, x,y): 
for col in range(len(chess)): 
































莹 
区 








for row in range(len(chess[0])): 
if col==x: 
chess[col] [row] -=1 
elif row==y: 
chess[col] [row] -=1 
elif coltrow==x+y: 
chess [col] [row] -=1 
elif col-row==x-y: 
chess [col] [row] -=1 
else: 
pass 


在 上 面 实现 了 记录 吃 棋 位 置信 息 和 清除 吃 棋 位 置信 息 的 函数 ， 就 可 以 将 这 两 个 函数 用 于 回溯 
中 的 吃 棋 范围 信息 记录 。 
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因为 回溯 过 程 中 需要 经 常 判断 下 一 行 是 否 有 安全 位 置 ， 所 以 先 编写 一 个 判断 一 行 中 有 无 安全 
位 置 的 函数 : 

def judgecol (chessvcol) : 

for row in range (Jen(chess[col])): 

if judgedanger (chess, col,row): 
break 
else: 
return False 
return True 


在 这 些 代 码 基础 上 ， 可 以 使 用 回溯 法 。 回 淹 的 步骤 如 下 ; 

步骤 014 将 第 n 个 皇后 放 到 一 个 安全 的 位 置 。 

步骤 024 将 n 皇后 的 吃 棋 范 围 标 出 ， 尝 试 放置 n+1 皇后 的 安全 位 置 。 

步 又 03 如 果 n+1 皇后 无 安全 位 置 可 放置 ， 就 回溯 到 nm 皇后 ， 让 n 皇后 清除 吃 棋 范 
下 一 个 安全 位 置 ， 重 复 第 ( 2 ) 步 。 

根据 上 面 回溯 步骤 的 分 析 ， 可 以 得 到 以 下 代码 : 


01 def tryqueen(chess,col,flag,result): 











Eu 





， 尝 试 











02 flag=True 

03 if col==8: 

04 print ("find") 

05 else: 

06 if judgecol (chess,col): 

07 for row in range(len(chess[col])): 

08 if judgedanger (chess,col row) : 

09 #print( "ok"+Str (col)+":"+str (row)) 
10 setdanger (chess, col,row) 

2 result .append( (col, row)) 

于 学 tryqueen (chess, col+1l,flag,result) 
23 if flag==False: 

14 erasedanger (chess,col, row) 

ES result .pop() 

16 else: 

17 flag=False 


代码 是 对 上 面 回 溯 三 段 分 析 的 实现 , 代码 06 是 判断 该 皇后 是 否 有 安全 位 置 , 如 果 有 ， 就 开始 尝试 
放置 到 第 一 个 安全 位 置 ， 在 09 行 及 成 功放 置 到 安全 位 置 之 后 ， 在 10 行 ， 将 该 皇后 的 吃 棋 范 围 标 出 来 ， 
接着 在 12 行 放置 下 一 个 皇后 ， 如 果 下 一 个 皇后 没有 安全 位 置 (flag 标志 表示 ) ， 该 皇后 就 在 14 行使 用 
erasedanger 清除 吃 棋 范围 信息 并 尝试 下 一 个 安全 位 置 ， 然 后 重复 以 上 步骤 。 直 到 8 个 皇后 全 部 放 到 安 
全 位 置 〈 代 码 03 行 ) ， 就 求 出 了 八 皇 后 问题 的 一 个 解 。 

经 过 分 析 ， 可 以 使 用 函数 求 得 八 皇 后 问题 的 一 个 解 ， 那 么 如 何 取得 八 皇后 问题 所 有 的 92 个 解 
呢 ? 

上 面 代码 的 回溯 结束 条 件 是 : 当 第 八 个 皇后 可 以 放置 到 象棋 棋盘 中 ， 函 数 将 是 否 有 安全 位 置 
的 标志 设置 为 True， 这 样 尝试 的 过 程 就 结束 了 。 如 果 修 改 回溯 结束 条 件 为 :在 第 八 个 皇 放 置 到 象 
棋 棋 盘 后 ， 只 是 打印 出 结果 列表 ， 并 且 将 标志 设置 为 没有 安全 位 置 (将 flag 设置 为 False) ， 那 么 
情况 就 如 同 没 有 找到 解 一 样 ， 函 数 会 回溯 上 一 次 尝试 的 地 方 ， 尝 试 下 一 个 可 能 。 因 为 回溯 结束 条 件 
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中 的 标志 被 设置 为 没有 找到 ， 所 以 函数 就 会 尝试 所 有 的 可 能 ， 也 就 可 以 找 出 所 有 的 解 。 
下 面 的 代码 是 对 八 皇 后 所 有 解 的 求解 。 


01 def tryqueen(chess,col,flag,result): 


02 flag=True 

03 if Col==8: 

04 Print (result) 

05 flag=False 

06 else: 

07 if judgecol (chess,col): 

08 for row in range (len(chess[col])): 

09 if judgedanger (chess,col, row): 

10 #print( "ok"+str(col)+":"+str (row)) 
1 setdanger (chess,col, row) 

12 result .append( (col, row)) 

323 tryqueen (chess, col+l1,flag, result) 
14 if flag==False: 

5 erasedanger (chess,col, row) 

16 result .pop() 

Ey else: 

18 flag=False 


代码 修改 部 分 主要 是 第 04~06 行 ，04 行 开始 打印 结果 列表 ，05 行将 标志 设置 为 False， 这 样 
tryqueen 函数 会 一 直 尝 试 下 去 ， 直 到 尝试 了 所 有 的 可 能 ， 找 出 八 皇 后 问题 的 所 有 解 。 

八 皇后 问题 是 计算 机 算法 上 一 个 经 典 的 题目 ， 解 决 的 算法 也 有 很 多 ， 比 较 简单 的 是 穷 举 法 。 
穷 举 法 是 将 八 皇后 所 有 位 置 的 可 能 一 一 进行 判断 (总 共 8 个 可 能 ) ， 然 后 从 中 得 到 符合 要 求 的 92 
种 可 能 。 本 小 节 使 用 的 是 较为 复杂 的 算法 : 回溯 法 。 回 溯 法 就 是 采用 逐步 试探 ,一 步 步 深 入 ,对 于 
不 满足 的 情况 ， 则 返回 上 次 尝试 的 位 置 , 继续 下 次 尝试 的 办 法 ， 相 比 穷 举 法 ,回溯 法 的 算法 性 能 更 
好 一 些 ， 算 法 实现 也 要 复杂 一 些 。 下 面 是 用 Python 实现 八 皇 后 回溯 算法 的 完整 代码 。 


01 def setdanger (chess,x,y): 


02 for col in range(len(chess)): 
03 for row in range(len(chess[0])): 
04 if col==x: 

05 chess [col] [row]+=1 
06 elif row==y: 

07 chess [col] [row]+=1 
08 elif col+row==x+y: 

09 chess [col] [row]+=1 
10 elif col-row==x-y: 

本 chess [col] [row]+=1 
诸多 else: 

3 pass 

14 

15 def erasedanger(chess,x,y): 

16 for col in range(len(chess)): 
17 for row in range(len(chess[0])): 
8 if col==x: 

19 chess[col] [row] -=1 
20 elif row==y: 

2¥ chess[col] [row] -=1 
2 elif col+row==x+y: 


23 chess[col] [row] -=1 


第 63 行 要 特别 说 明 一 下 ,在 Python 编译 器 读 取 源 文件 的 时 候 , 会 执行 它 找到 的 所 有 代码 ,在 
执行 之 前 会 根据 当前 运行 的 模块 是 否 为 主 程序 而 定义 变量 _name 的 值 为 _main 还 是 模块 名 。 
因此 ,该 判断 语句 为 真 时 ,说明 当前 运行 的 脚本 为 主 程序 ， 而 非 主 程序 所 引用 的 一 个 模块 。 当 我 们 
想 要 运行 一 些 只 有 将 模块 当 作 程序 运行 时 才 执 行 的 命令 ， 只 要 将 它们 放 到 if _name ”一 
“__main :判断 语句 之 后 就 可 以 了 。 





面向 对 象 编程 


面向 对 象 编程 的 英文 简称 是 OOP (Object Oriented Programming) ， 该 项 技术 是 目前 运用 非常 
广泛 的 程序 化 设计 方法 ， 几 乎 完全 取代 了 过 去 的 面向 过 程 编 程 。Python 中 一 切 皆 为 对 象 。 

类 是 面向 对 象 编程 的 核心 部 件 ， 它 描述 了 一 组 具有 相同 特性 和 行为 的 对 象 。 基 于 面向 对 象 的 
应 用 程序 ， 就 是 由 几 个 或 几 十 个 甚至 更 多 的 类 组 成 ， 且 类 之 间 总 是 保持 着 或 多 或 少 的 关系 ， 如 某 些 
类 可 以 继承 自 其 他 类 ， 并 拥有 所 继承 类 的 所 有 特征 和 行为 。 


5.1 面向 对 象 基础 


要 学 习 面 向 对 象 的 Python 编程 ， 必 须 先 了 解 面 向 对 象 编程 中 的 一 些 概念 。 

1. 类 

类 是 现实 世界 中 实体 的 形式 化 描述 ， 类 将 该 实体 的 数据 和 方法 封装 在 一 起 。 类 的 数据 也 叫 属 
性 、 状 态 或 特征 ， 它 表现 类 静态 的 一 面 。 类 的 方法 也 叫 功能 、 操 作 或 行为 ， 它 表现 类 动态 的 一 面 。 
比如 动物 是 一 个 大 类 ， 基 本 所 有 的 动物 都 有 年 龄 、 颜 色 等 静态 的 特征 ， 都 有 奔跑 、 跳 跃 等 动态 的 行 

2. 对 象 

对 象 是 类 的 实例 (instance) ， 创 建 对 象 的 过 程 称 为 类 的 实例 化 。 比 如 动物 是 个 大 类 ， 比 较 抽 
象 ， 如 果 要 具象 化 〈 就 是 把 抽象 的 东西 表现 得 很 具体 ) ， 就 是 猫 是 一 种 动物 。 从 计算 机 角度 描述 ， 
这 个 猫 可 以 认为 是 动物 类 的 “对 象 ”。 每 一 个 对 象 都 有 一 个 名 字 以 区 别 于 其 他 对 象 。 类 和 对 象 的 关 
系 可 以 总 结 为 : 

日 每 一 个 对 象 都 是 某 一 个 类 的 实例 。 
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e 每 一 个 类 在 某 一 时 刻 都 有 零 或 更 多 的 实例 。 
晶 类 是 生成 对 象 的 模板 。 基 本 上 类 所 具备 的 静态 特征 和 动态 特征 ， 对 象 都 具备 。 





3. 属性 和 方法 


前 面 提 到 类 有 静态 的 特征 和 动态 的 行为 ， 一 般 我 们 把 静态 的 特征 统称 为 属性 〈Attribute) ， 在 
代码 中 表现 为 一 些 变量 ; 动态 的 行为 称 之 为 方法 (Method) ， 在 代码 中 表现 为 函数 。 

4. 继承 

继承 表示 类 之 间 的 层次 关系 ， 这 种 关系 使 得 某 类 对 象 可 以 继承 另外 一 类 对 象 的 数据 和 方法 。 

假设 类 B 继承 类 A， 即 类 B 中 的 对 象 具 有 类 A 的 一 切 特征 〈 包 括 属性 和 方法 ) 。 类 A 称 为 基 
类 或 父 类 ， 类 B 称 为 类 A 的 派生 类 或 子 类 ， 类 B 可 以 在 类 A 的 基础 上 多 一 些 扩展 的 属性 和 方法 。 

5. 重 写 

重 写 ， 一 般 指 方法 的 重 写 。 比 如 有 个 “会 员 ” 类 ， 具 体 一 个 方法 print， 其 输出 “用 户 ， 你 好 ” 
这 几 个 文字 ， 此 时 要 添加 一 个 “VIP 会 员 ” 类 ， 它 继承 自 “ 会 员 ” 类 ， 那 它 就 具备 了 print 这 个 方 
法 ， 默 认输 出 也 是 “用 户 ， 你 好 ”。 为 了 表示 对 VIP 会 员 的 重视 ，“VIP 会 员 类 ” 想 更 改 这 个 输出 
语句 ， 改 为 “您 是 我 们 的 VIP 用 户 ， 此 次 购物 8 折 ”， 此 时 更 新 后 的 print 方 法 就 是 重 写 了 基 类 的 
print 方法 。 


5.2 ”定义 与 使 用 类 


既然 是 面向 对 象 编程 ， 就 必须 有 定义 和 使 用 类 的 规范 ， 本 节 将 介绍 如 何在 Python 中 定义 类 的 
属性 、 方 法 等 。 


5.2.1 类 的 定义 


Python 中 使 用 class 关键 字 定义 类 ， 语 法 如 下 : 
class ClassName: 

语句 1 

语句 2 

语句 n 


ClassName 是 类 的 名 字 ， 后 面 是 冒号 ， 与 类 的 定义 内 容 间隔 开 。 语 句 1... 语 句 n 可 以 用 于 书写 
类 的 属性 和 方法 ， 属 性 一 般 都 是 变量 ， 方 法 就 是 用 def 定义 的 一 些 函数 。 
先 来 定义 一 个 简单 的 类 ， 这 里 的 属性 和 方法 都 是 直接 输出 的 : 
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【示例 5-1】 


01 class testClass: 


02 name=' 张 晓 晓 ' 


03 def welcome (self): 
04 print ("欢迎 你 ') 
05 


06 w=testClass() 

07 print(w.name) 

08 Ww.welcome() 

w=testClass() 语 句 表示 类 的 实例 化 , w 是 类 testClass 的 对 象 , name 是 testClass 的 属性 , welcome 
是 testClass 的 方法 ,实例 化 对 象 后 ,使 用 w.name 就 可 以 调用 类 中 定义 的 name 属 性 ,使 用 w. welcome() 
就 能 调用 类 的 方法 。 

Python 要 求 类 的 方法 中 第 1 个 参数 必须 为 self 推荐 关键 字 self， 也 可 以 写作 其 他 单词 ) ， 表 
示 类 的 实例 ， 这 里 需要 注意 ， 表 示 的 是 实例 本 身 ， 而 不 是 类 。 下 面 做 一 个 测试 : 

【示例 5-2】 

01 class testClass: 

02 name=' 张 晓 晓 ' 


03 def welcome (self): 

04 print (' 实 例 ', self) 

05 print (' 类 ', self. class ) 
06 


07 w=testClass() 
08 w.welcome() 


输出 如 下 : 

实例 <_main .testclass object at 0x000001AA9D220160> 

类 <class ' main .testclass'> 

self 是 实例 本 身 ， 而 self，_class_ 才 是 类 本 身 。 写 作 self 是 推荐 写法 ， 比 如 换 为 this， 也 是 可 
以 的 : 

【示例 5-3】 

01 class testClass: 


02 name=' 张 晓 晓 ' 
03 def welcome (this): 


04 print (' 实 例 ', this) 
05 Print (' 类 ', this. class ) 
06 


07 w=testClass() 
08 w.welcome() 


和 前 面 代码 的 输出 是 一 样 的 ， 读 者 可 以 自行 测试 。 


5.2.2 ”类 的 构造 方法 和 析 构 方法 


Python 类 中 有 两 个 比较 特殊 的 方法 ， 它 们 不 是 某 类 具备 的 功能 〈 不 是 “动物 ”类 的 功能 ) ， 
而 是 类 的 专 有 方法 ， 即 构造 方法 和 析 构 方法 ， 有 时 也 称 构造 函数 和 析 构 函数 。 本 书 因为 统称 类 中 的 
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函数 为 类 的 方法 ， 所 以 统一 称 为 方法 。 
构造 方法 : 实例 化 类 时 自动 执行 的 方法 ， 定 义 时 用 _init 形式 . 
e@ 析 构 方法 : 销毁 类 时 自动 执行 的 方法 ， 定 义 时 用 _del 形式 . 


以 两 个 下 画 线 _ 开 头 ， 同 时 以 两 个 下 画 线 _ 结 尾 的 方法 ，Python 称 为 “魔术 方法 "， 本 书后 
面 会 有 更 详细 的 介绍 。 





这 两 种 方法 之 所 以 说 是 “自动 执行 ”， 因 为 不 需要 开发 人 员 的 调用 。 

假设 有 一 个 会 员 类 MarketMember， 当 创建 该 类 的 对 象 时 ， 默 认输 出 欢迎 信息 ， 那 么 它 的 定义 
如 下 : 

【示例 5-4】 


01 class MarketMember: 


02 def _init (self): 
03 print (' 欢 迎 光临 ' ) 

04 def del (self): 

05 pass 

06 

07 m=MarketMember () # 创 建 对 象 






构造 方法 的 内 容 会 在 创建 对 象 时 自动 执行 ， 也 就 是 此 时 运行 程序 ， 会 输出 “欢迎 光临 ”。 析 
构 方法 中 的 pass 表示 空 操作 ， 但 会 在 内 存 中 生成 占 位 符 。 


构造 方法 和 析 构 方法 是 在 特殊 情况 下 或 当 使 用 特别 语法 时 由 Python 替 你 调用 的 ， 不 需要 在 
代码 中 直接 调用 (类 似 普通 的 方法 那样 )， 这 两 个 方法 在 类 中 都 只 能 被 定义 一 次 。 





5.2.3 ”类 的 私有 属性 


前 面 学 习 的 类 中 ， 类 的 方法 和 属性 都 能 被 对 象 调用 ， 这 些 是 类 的 共有 属性 ， 还 有 一 种 是 类 的 
私有 属性 ， 对 象 无 法 调用 ， 只 在 类 内 部 才 可 以 使 用 。 比 如 下 面 的 例子 : 


【示例 5-5】 

01 class MarketMember: 

02 _count=0 

03 _name='! 

04 def _init (self,name,count): 

05 self. count += count 

06 self._ name =name 

07 def seek(self): 

08 print (self. name+' 积 分 为 '+str (self. count)) 
09 


10 m=MarketMember (' 王 晓 ', 300) 
11 m.seek() 
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实例 化 的 对 象 调用 。 





输出 时 使 用 + 连接 字符 串 , 因 为 count 是 数字 ,所 以 使 用 str 函数 转 换 为 字符 串 。 _count 和 _ name 
是 类 的 两 个 私有 属性 ， 如 果 使 用 m._count 访问 ， 就 会 报错 : 


Traceback (most recent call last): 
File "D:/classl.py", line 44, in <module> 
m.__ count 
RttributeError: 'MarketMember' object has no attribute '_ count' 


构造 方法 中 ， 将 传递 的 参数 赋值 给 类 的 内 部 属性 ， 在 创建 类 时 会 自动 执行 该 方法 。 构 造 方法 
中 的 参数 ， 在 创建 对 象 时 必须 给 出 具体 的 值 ， 否 则 程序 会 报错 : 缺少 参数 。 


5.2.4 ”类 的 私有 方法 


类 的 私有 方法 和 私有 属性 一 样 ， 也 是 以 双 下 画 线 _ 开始， 不 能 被 对 象 调用 。 下 面 设计 一 个 简 
单 的 类 ， 只 有 一 个 私有 方法 。 


【示例 5-6】 

01 class MarketMember: 

02 def _ changel(self,count): 

03 Print (' 更 改 后 积分 为 '+str (count)) 
04 


05 m=MarketMember () 
06 m._change(500) 
第 06 行 调用 类 的 私有 方法 ， 运 行 时 报错 : 


Traceback (most recent call last): 
File "D:\classl.py", line 65, in <module> 
m.__ change (500) 
AttributeError: 'MarketMember' object has no attribute '__change' 


把 第 02 行 和 第 06 行 的 双 下 画 线 _ 去 掉 再 执行 程序 ， 就 能 正确 运行 了 。 


5.2.5 ”一 个 完整 的 类 


假设 有 一 个 会 员 类 MarketMember， 有 属性 “姓名 ”name、“ 积 分 ”count， 有 方法 “积分 变 
更 ”change(0)。 默 认 在 创建 对 象 时 ， 就 输出 会 员 的 姓名 和 当前 积分 ， 当 用 户 积分 变更 后 输出 最 新 积 
分 。 下 面 是 代码 : 


【示例 5-7】 
01 class MarketMember: 
02 __name=' 
03 count=600 
04 def _init (self,name): 
05 self. name=name 


06 print ( self. name+' 当前 积分 为 '+str(self.count)) 
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07 def change (self, count1) : 
08 self.count=self.count+count1 

09 Print (self._ name+' 更 改 后 积分 为 '+str (self.count)) 
10 


11 m=MarketMember(' 王 晓 ') 
12 m.change(500) 
13 print(m.count) 


本 类 包括 : 

一 个 私有 属性 _name 
一 个 属性 count 
一 个 构造 方法 

一 个 change 方法 


因为 名 字 是 通过 参数 传递 过 来 的 , 所 以 这 里 我 们 用 私有 属性 name 表示 名 字 。 因 为 积分 会 变更 ， 
也 允许 对 象 调用 积分 ， 所 以 count 不 是 私有 属性 。 当 积分 变更 后 ， 使 用 m.count 调用 积分 会 给 出 最 
终 变更 的 积分 。 

本 例 的 输出 结果 如 下 : 

王 晓 当前 积分 为 600 


王 晓 更 改 后 积分 为 1100 
1100 


5.3 类 与 类 的 关系 


在 面向 对 象 关系 中 ， 一 般 有 继承 〈 泛 化 ) 、 依 赖 、 关 联 、 聚 合 、 复 合 等 关系 ， 实 际 上 这 些 关 
系 都 是 用 来 描述 现实 某 个 应 用 场景 下 关系 的 关联 强度 。 

其 中 继承 关系 和 其 他 关系 有 所 区 别 ， 继 承 是 静态 的 〈 虽 然 Python 支持 对 继承 关系 做 动态 改变 ， 
但 使 用 时 不 做 改变 ) ， 描 述 的 是 程序 设计 时 就 定 下 来 的 规则 ， 比 如 男人 是 人 的 一 种 ， 卡 车 是 汽车 的 
一 种 ， 这 种 继承 的 关系 ， 是 设计 之 初 就 定 下 来 的 静态 规则 。 

而 依赖 、 关 联 、 聚 合 、 复 合 这 些 关系 ， 则 是 运行 时 互相 交互 产生 的 。 例 如 ， 在 运行 过 程 中 ， 
将 A 作为 参数 给 B 的 方法 (依赖 关系 ) ， 将 A 作为 B 的 类 属性 〈 关 联 ) ， 类 A 只 为 B 的 属性 ， 
不 单独 存在 也 不 作为 其 他 类 的 属性 (复合 ) ， 按 照 UML 的 标准 ， 都 将 依赖 、 关 联 、 聚 合 、 复 合 这 

UML 中 之 所 以 分 出 这 4 种 关系 ， 是 为 了 描述 现实 世界 中 各 种 东西 之 间 关 系 的 强 弱 。 比 如 人 心 
和 人 就 是 一 个 复合 ， 人 和 人 心 同 时 存在 , 同时 消亡 ， 是 紧 紧 组 合 在 一 起 的 。 又 比如 汽车 轮胎 和 卡车 
就 是 一 种 聚合 ,汽车 轮胎 是 卡车 的 一 部 分 ,也 可 以 是 其 他 车 的 一 部 分 ， 而 汽车 轮胎 和 卡车 也 不 是 同 
时 存在 ， 同 时 消亡 的 。 

对 于 Python 面向 对 象 来 说 ， 只 需要 注意 各 种 关系 所 对 应 的 语法 展示 就 可 以 了 。 


® 依赖 : 如果 类 A 方法 的 参数 是 另 一 个 类 B， 那 么 就 是 A 依赖 于 B。 
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日 关联、 聚合 、 复 合 关系 : 如 果 类 A 的 属性 中 有 类 BB 的 实例 ,那么 它们 就 是 关联 关系 ; 如 果 
类 B 的 实例 只 作为 是 类 A 的 属性 存在 ， 那 么 A 和 B 就 是 复合 关系 。 


5.3.1 单 继承 


继承 是 指 一 个 类 A 能 利用 另 一 个 类 B 的 资源 (包括 属性 和 方法 等 ), 其 中 B 类 被 称 为 基 类 (或 
父 类 ) ，A 类 被 称 为 派生 类 (或 子 类 ) 。Python 支持 单 继承 和 多 继承 。 
继承 的 意思 就 是 子 承 父 业 ， 父 类 的 公开 属性 和 方法 ， 子 类 都 自动 继承 。 继 承 的 语法 如 下 : 


class 子 类 名 ( 父 类 名 ) : 
语句 1 


将 父 类 名 放 在 () 中 ， 只 有 一 个 父 类 的 时 候 称 为 单 继承 。 在 子 类 中 ， 不 需要 再 定义 父 类 已 有 的 方 
法 和 属性 ， 可 以 定义 只 属于 自己 的 方法 和 属性 。 下 面 是 一 个 例子 : 


【示例 5-8】 

01 class MarketMember: 

02 _ name="'"' 

03 count=600 

04 def init (self,name): 

05 Self. name=name 

06 Print( self. name+' 当 前 积分 为 '+str (self.count)) 
07 def change (self, count1): 

08 self.count=self.count+count1 

09 Print (self. name+' 更 改 后 积分 为 '+str (self.count)) 
10 

11 class MyMember (MarketMember) : 

12 age=0 

13 def seekAge (self): 

14 Print (' 年 龄 为 '+str (self.age) +" 积分 为 "+str (self.count)) 
15 


16 ”m=MyMember(' 王 晓 ') 
17 m.change(500) 

18 m.age=25 

19 m.seekAge() 


对 上 述 代 码 进行 解析 : 
(1) 第 11 行 定义 了 一 个 子 类 MyMember, 继承 自 父 类 MarketMember。 父 类 的 公开 属性 count 
就 可 以 在 子 类 中 调用 ， 如 第 14 行 self.count。 
(2) 创建 子 类 的 对 象 m 后 ， 父 类 和 子 类 的 方法 都 可 以 调用 ， 如 第 16~19 行 。 
(3) 本 例 没有 在 子 类 中 添加 构造 方法 ， 子 类 是 可 以 有 构造 方法 的 。 
本 例 结果 如 下 : 
王 晓 当前 积分 为 600 


王 晓 更 改 后 积分 为 1100 
年 龄 为 25 积分 为 1100 
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5.3.2 多 继承 


一 个 子 类 可 以 同时 有 两 个 或 以 上 的 父 类 ， 这 种 称 为 多 继承 。 多 继承 的 语法 如 下 : 


class 子 类 名 ( 父 类 名 1， 父 类 名 2...) : 
语句 1 


下 面 创建 “动物 ”“ 猫 ”和 “ 白 猫 ”3 个 类 ， 其 中 “ 白 猫 ”继承 自 “ 动 物 ” 和“ 猫 ” 这 两 个 类 ， 
代码 如 下 : 


【示例 5-9】 

01 class Animals: 

02 Color='' 

03 weight=0 

04 def jump (self): 

05 print (' 我 能 跳 ') 

06 

07 class Cats: 

08 def miaomiao(self) : 

09 Print (! 嘲 噶 ') 

10 

11 class WhiteCat (Animals,Cats): 
12 def catch(self): 

3 Print (' 我 才能 抓 到 老鼠 ') 
14 

15 


16 c=WhiteCat() 
17 c.jump() 

18 c.miaomiao() 
19 c.catch() 


第 01~13 行 创建 3 个 类 , 每 个 类 都 有 一 个 方法 。 第 11 表示 WhiteCat 类 继承 了 前 面 两 个 类 。 因 
此 当 创 建 这 个 类 的 对 象 时 ， 它 会 具备 3 个 类 所 有 的 方法 。 本 例 输出 : 


我 能 跳 
噶 噶 
我 才能 抓 到 老鼠 


在 Python 中 ， 当 几 个 父 类 都 具备 某 个 方法 (或 属性 ) 时 ， 会 按 子 类 继承 父 类 时 的 顺序 依次 查 
找 同名 的 方法 ， 先 找到 谁 就 执行 谁 的 方法 。 


5.3.3 ”类 的 关联 和 依赖 

实际 上 ， 在 面向 对 象 程序 设计 中 ， 主 要 的 问题 就 是 区 分 类 及 类 和 类 的 关系 ， 类 的 关系 除了 继 
承 之 外 ， 还 有 依赖 和 关联 ， 以 及 聚合 和 复合 。 

1. 依赖 

依赖 具有 某 种 偶然 性 ， 比 如 我 要 过 河 ， 没 有 桥 怎 么 办 ， 我 就 去 借 一 条 小 船 渡 过 去 ， 我 与 小 船 
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的 关系 仅仅 是 使 用 (借用 ) 的 关系 。 表 现在 代码 上 , 为 依赖 的 类 的 某 个 方法 以 被 依赖 的 类 作为 其 参 
数 。 如 果 A 依赖 于 B， 那 就 意味 着 B 的 变化 可 能 要 求 A 也 发 生变 化 ， 在 UML 图 中 ， 一 般 用 一 个 
带 虚线 的 箭头 表示 ， 以 人 借 船 过 河 为 例 ，UML 图 如 图 5.1 所 示 。 


<< 数 据 类 型 >> 
船 
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图 5.1 依赖 关系 的 UML 图 
根据 这 个 图 ， 在 Python 中 的 代码 实现 如 下 : 


class Person: 
def gobyboat (self,boat): 
boat .overriver() 


class Boat: 
def overriver (self): 
pass 


在 上 面 的 代码 中 有 两 个 类 : Person 类 和 Boat 类 。Person 类 的 方法 gobyboat 需要 boat 作为 参数 
传 入 ， 这 样 才能 调用 boat 的 过 河 (overriver) 方法 ， 这 就 叫 依赖 ，Person 依赖 于 Boat。 

2. 关联 

所 谓 关 联 , 就 是 表示 相识 关系 , 比如 类 A 知道 类 B 的 存在 , 类 A 可 以 调用 类 B 的 属性 和 方法 。 
在 UML 图 中 ， 一般 用 没有 第 头 的 实 线 表示 。 关 联 关系 有 单 向 关联 、 双 向 关联 、 自 我 关联 等 各 种 关 
系 。 例如， 一 个 企业 有 很 多 员工 ， 企 业 和 员工 就 是 关联 关系 ， 即 单 向 关联 关系 ,图 5.2 展示 了 这 种 
UML 的 单 向 关联 关系 。 





5.2 关联 关系 的 UML 图 


图 5.2 表示 一 个 单 向 关联 关系 ， 一 个 企业 有 N 个 员工 ， 在 Python 代码 实现 上 ， 一 般 关联 关系 
是 一 个 类 作为 另 一 个 类 的 成 员 属性 ， 例 如 : 
class employee: 


id=0 
name=" 


class company: 
def init (self): 
self.employeer=employee () 
上 面 是 关联 关系 的 代码 举例 ，company 类 有 属性 employee， 所 有 company 可 以 通过 employee 
访问 employee 的 属性 和 方法 ,关联 关系 要 比 依赖 关系 更 加 紧密 ,因此 又 把 依赖 关系 称 之 为 弱 关 联 。 
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5.3.4 ”类 的 聚合 和 复合 


聚合 和 复合 〈 组 合 ) 也 是 类 的 关系 之 一 。 聚 合 与 组 合 其 实 都 是 关联 的 特例 ， 都 是 整体 和 部 分 
的 关系 。 它 们 的 区 别 在 于 聚合 的 两 个 对 象 之 间 是 可 分 离 的 ， 它 们 具有 各 自 的 生命 周期 ; 组 合 往往 表 
现 为 一 种 唇齿 相依 的 关系 。 实 际 上 ， 这 两 种 关系 语法 上 是 一 样 的， 区 别 在 于 语义 。 在 语法 上 ， 都 是 
将 另 一 个 类 作为 自己 的 属性 ， 这 样 就 叫 聚合 或 复合 ， 例 如 下 面 的 代码 : 
>>> class A: 
pass 





>>> class B: 
pass 

>>> class C: 

a=A() 

b=B() 
>>>class D: 
b=B() 


上 面 的 代码 中 ， 因 为 类 C 有 两 个 属性 a 和 b， 所 以 C 和 A、B 的 关系 就 是 聚合 ，C 是 将 A、B 
类 聚合 到 自己 身上 ， 同 时 B 类 还 作为 D 类 的 一 部 分 ,而 A 只 能 作为 类 C 的 一 部 分 ,那么 类 C 和 和 
就 是 生死 与 共 的 关系 ， 没 有 C 就 不 存在 A〈 因 为 A 只 给 C 当 属 性 使 用 ) ， 因 此 A 和 C 是 复合 (组 
合 ) 关系 ，B 和 A 是 聚合 关系 。 

在 UML 中 ， 聚 合 关系 用 一 个 空心 菱形 带 实 线 表 示 ， 复 合 关 系 用 一 个 实心 鞭 形 带 实 线 表 示 ， 图 
5.3 所 示 为 类 A、B、C、D 之 间 的 聚合 和 复合 关系 图 。 








5.3 ”聚合 和 复合 关系 
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54 重 写 


Python 允许 子 类 重 写 父 类 中 己 有 的 方法 , 而 且 不 需要 特殊 的 关键 字 进 行 说 明 。 比 如 前 面 的 “ 猫 ” 
类 ， 如 果 “ 白 猫 ” 类 要 有 自己 的 miaomiao() 方 法 ， 就 需要 做 如 下 改动 : 
【示例 5-10】 


01 class Animals: 














02 color=' 

03 weight=0 

04 def jump (self) : 

05 print (' 我 能 跳 ') 

06 

07 class Cats: 

08 def miaomiao(self): 

09 print (' 哈 史 ') 

10 

11 class WhiteCat (Animals,Cats): 
a def miaomiao(self): 

13 Print(' 白 噶 噶 ') 

14 def catch(self): 

15 print (' 我 才能 抓 到 老鼠 ') 
16 

Ey 


18 c=WhiteCat() 
19 cc.jump() 

20 c.miaomiao() 
21 c.catch() 


那么 子 类 对 象 调 用 的 就 是 它 自己 的 miaomiao0， 输 出 如 下 : 


我 能 跳 
白 嘲 噶 
我 才能 抓 到 老鼠 


5.5 ”魔术 方法 





前 面 提 到 的 构造 方法 和 析 构 方法 都 是 魔术 方法 “魔法 方法 ) ， 本 节 将 详细 介绍 它 的 使 用 。 
5.5.1 ”魔术 方法 的 概念 


魔术 方法 就 是 可 以 给 我 们 的 类 增加 魔力 的 特殊 方法 ， 如 果 我 们 的 对 象 实现 〈 重 载 ) 了 这 些 方 
法 中 的 某 一 个 ， 那 么 这 个 方法 就 会 在 特殊 的 情况 下 被 Python 自动 调用 ， 我 们 可 以 定义 自己 想 要 的 
行为 ， 而 这 一 切 都 是 自动 发 生 的 。 

魔术 方法 通常 是 由 两 个 下 画 线 包围 命名 的 (比如 init _，_ lt _)，Python 中 常见 的 魔术 方 
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法 参见 表 5.1。 


表 5.1 Python 中 常见 的 魔术 方法 











方法 名 称 说 明 
_init (selfl,..]) 当 一 个 实例 被 创建 时 调用 ， 构 造 方 法 
_del (self) 当 实 例 被 销毁 时 调用 ， 析 构 方法 





_call (selfl,args...) 


允许 一 个 类 的 实例 像 函数 一 样 被 调用 





_ getitem (self,key) 


获取 自 定义 容器 中 指定 的 键 ， 相 当 于 selftkey] 





_setitem (selfkey,value) 


设置 自 定 义 容器 中 指定 的 键 ， 相 当 于 selt[key]= value 





__getattr (selfname) 


当 用 户 试图 访问 一 个 不 存在 属性 时 的 行为 





_ getattribute (selfname) 


-个 属性 被 访问 时 的 行为 





_setattr (self,name,value) 


当 
当 一 个 属性 被 设置 时 的 行为 





_ delattr (self,name) 


当 一 个 属性 被 删除 时 的 行为 





__ get (self,instance,owner) 
_set (self,instance,value) 





当 描述 符 的 值 被 获取 时 的 行为 
当 描 述 符 的 值 被 设置 时 的 行为 








_ delete (self,instance) 








定义 当 描述 符 的 值 被 删除 时 的 行为 


delete _ 被 称 为 描述 符 ( Descriptor )， 带 有 描述 符 的 类 一 般 称 为 描述 符 








5.5.2 ”魔术 方法 的 应 用 


(1) _call_ 方法 是 允许 一 个 类 的 实例 像 函数 一 样 被 调用 ， 比 如 有 一 个 Person 类 的 实例 p， 
平时 在 调用 它 的 属性 或 方法 时 都 是 用 p.xx 的 形式 ， 如 果 像 函数 一 样 ， 就 是 p() 的 形式 。 下 面 定义 一 


个 类 ， 并 添加 它 的 _call 方法 : 


【示例 5-11】 


01 class Person: 


02 def init (self, name, age): 
03 self.name = name 

04 self.age = age 

05 def call (self,*args): 

06 return args [0]+args [1] 

07 


08 p = Person(' 王 晓 光 '，20) 


09 print(p(30,20)) 


第 05~06 行 定义 了 __call 方法 , 第 1 个 参数 是 必需 的 self, 第 2 个 则 用 了 可 变 参数 ， 加 * 号 的 
都 是 可 变 参 数 ， 方 法 的 返回 值 是 两 个 参数 的 和 。 第 09 行 p(30,20) 就 是 用 函数 的 形式 调用 类 的 实例 ， 


输出 结果 是 50。 


(2) getitem _ 、_ setitem 是 获取 键 或 设置 键 ， 一 般 用 于 类 中 的 一 些 自 定义 数据 结构 。 


比如 类 中 有 个 字典 类 型 ， 














中 有 name 和 age 两 个 键 ， 如 果 要 在 类 的 实例 中 访问 某 个 键 ， 我 们 


该 如 何 操作 呢 ? 下 面 看 一 个 例子 : 
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【示例 5-12】 

01 class Person: 

02 def init (self, name, age): 

03 self.name = name 

04 self.age = age 

05 self. registry = { 

06 "name'" : name, 

07 "age': age 

08 } 

09 def getitem (self, key): 

10 if key not in self. registry.keys(): 

TF raise Exception('Please registry the key:%s first !' % (key,)) 

于 人 return self. registry[key] 

3 def setitem (self, key,value): 

14 if key not in self. registry.keys(): 

Ey raise Exception('Please registry the key:%s first !' % (key,)) 

16 self. registry[key]=value 

BY 

18 p = Person(' 王 晓 光 '，20) 

19 print(p['name'],p['age']) # 王晓光 20 

20 pl[l'age']=30 

21 print(p['name'],p['age']) ## 王晓光 30 

上 述 代码 中 有 一 个 类 的 私有 字典 变量 _registry， 它 包含 两 个 键 值 ， 如 果实 例 要 访问 或 修改 这 两 
个 键 值 ， 就 需要 _ getitem 和 _ setitem 这 两 个 魔术 方法 。 

(3) ”getattr 、 getattribute 、 setattr 、 delattr 是 与 类 属性 相关 的 魔术 方法 。 

__getatt ”定义 了 用 户 试图 访问 一 个 不 存在 的 属性 时 的 行为 ， 一 般 不 建议 使 用 。 下 面 用 其 他 3 
个 方法 举例 : 

【示例 5-13】 

01 class Person: 

02 def init (self,name,age): 

03 self.name = name 

04 self.age = age 

05 def getattribute (self,item): 

06 return super (Person, self). getattribute (item) 

07 def setattr (self,item,value): 

08 Super (Person, self). setattr (item,value) 

09 def delattr (self,item): 

10 print ( ' 属 性 被 删除 了 ! ， ) 

1 

12 p = Person(' 王 晓 光 '，20) 

13 print (p.name) 

14 ” p.addr=' 上 海 ' 

15 print(p.addr) 

16 del p.addr # 删 除 属性 

在 设置 属性 时 ， 第 06 行使 用 了 super(Person,self)， 表 示 调 用 父 类 的 同名 方法 ， 虽 然 本 例 并 没 


有 实现 继承 ， 但 是 Python 中 默认 所 有 的 类 都 继承 自 object( 被 称 为 超 类 ， 默 认可 以 不 写 明 ) 。 设 
置 属性 或 获取 属性 值 时， 都 会 调用 父 类 的 同名 方法 。 第 14 行 设置 一 个 新 的 属性 addr 并 赋值 。 本 例 
结果 为 : 
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王晓光 

上 海 

属性 被 删除 了 ! 

(4) get 、_set 、_delete 是 描述 符 相 关 的 方法 。 

如 果 类 的 某 个 属性 设置 了 描述 符 ， 对 这 个 属性 的 访问 会 触发 特定 的 绑 定 行为 。 下 面 定 义 一 个 
类 表示 距离 ， 它 有 两 个 属性 : 米 和 英尺 。 这 两 个 属性 用 到 了 带 描述 符 的 类 。 

【示例 5-14】 


01 class Meter: 





02 def init (self, value=0.0): 

03 self.value = float (value) 

04 def get (self, instance, owner): 
05 return self.value 

06 def _set (self, instance, value): 
07 self.value = float (value) 

08 

09 class Foot: 

10 def get (self, instance, owner): 
11 return instance.meter * 3.2808 
县 多 def set (self, instance, value): 
13 instance.meter = float(value) / 3.2808 
14 

15 class Distance: 

16 meter = Meter() 

rE foot = Foot() 

18 


19 d= Distance() 

20 print(d.meter, d.foot) #0.0, 0.0 

21 d.meter = 1 

22 print(d.meter, d.foot) #1.0 3.2808 

23 d.meter = 2 

24 print(d.meter, d.foot) # 2.0 6.5616 

上 述 代码 首先 定义 了 一 个 类 Distance， 其 中 两 个 属性 都 是 类 的 实例 。 在 没有 对 Distance 的 实例 
赋值 之 前 ，meter 和 foot 应 该 是 各 自 类 的 实例 对 象 , 但 是 输出 却 是 数值 ， 这 就 是 因为 ”get_ 方法 发 
挥 了 作用 。 第 21 行 虽然 只 是 修改 了 meter 的 值 ， 但 是 foot 的 值 也 改变 了 ， 这 是 _set ”方法 发 挥 了 
作用 。 

描述 器 对 象 (Meter、Foot) 不 能 独立 存在 ， 它 需要 被 男 一 个 所 有 者 类 Distance 持 有 。 描 述 器 
对 象 可 以 访问 到 其 拥有 者 实例 的 属性 ， 比 如 例子 中 Foot 的 instance.meter。 


在 面向 对 象 编 程 时 ， 如 果 一 个 类 的 属性 有 相互 依赖 的 关系 ， 使 用 描述 器 来 编写 代码 就 可 以 
很 巧妙 地 组 织 远 辑 。 
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5.6 碗 代 器 


学 习 进 代 器 ， 先 要 理解 两 个 概念 : 迭代 、 进 代 器 。 迁 代 〈Iterate) 指 的 是 重复 做 相同 的 事 ， 迁 
代 器 (Iterator) 就 是 用 来 重复 多 次 相同 的 事 。 和 迭代 器 是 一 种 访问 序列 的 方式 ， 它 返回 序列 中 的 所 有 
元 素 ， 一 个 接着 一 个 。 通 俗 来 讲 ， 和 从 代 器 就 是 一 种 访问 方式 ， 从 序列 的 第 一 个 元 素 开 始 访问 ， 直 到 
所 有 的 元 素 被 访问 完结 束 。 








使 用 迭代 器 的 序列 包括 字符 串 、 列 表 、 元 组 。 迭 代 器 支持 的 函数 有 以 下 两 个 : 


@ iterD)， 创 建 一 个 选 代 器 对 象 。 
@ next(0， 访 问 迭 代 器 中 的 下 一 个 元 素 。 


下 面 举例 说 明 : 

>>> a = [1,2,3,4,5,6,7,8,9,10] 
>>> a=iter (a) 

>>> a._ next _() 

和 

>>> a. next _() 

2 

>>> 


直接 在 解释 器 中 定义 一 个 列表 a， 然 后 用 iter() 创 建 a 的 迭代 器 ， 此 时 可 以 使 用 迭 代 器 内 置 的 
_next_() 逐 个 读 取 列表 a 中 的 数据 。 当 然 ， 也 可 以 使 用 next(a) 的 方式 输出 数据 。 

这 样 做 是 不 是 很 复杂 ? 一 般 并 不 建议 这 样 使 用 迭代 器 。 通 常 运 代 器 与 for 循环 组 合 , 当 使 用 for 
循环 遍历 整个 对 象 时 ， 就 会 自动 调用 此 对 象 的 _next_0 函 数 并 获取 下 一 个 元 素 。 当 所 有 的 元 素 全 








部 取出 后 ， 就 会 抛 出 一 个 StopIteration 异常 ， 这 不 是 发 生 错 误 ， 而 是 告诉 外 部 调用 者 迭代 完成 了 ， 
外 部 的 调用 者 尝试 去 捕获 这 个 异常 去 做 进一步 的 处 理 。 
下 面 代码 举例 : 


【示例 5-15】 


a [lr2,3,4;5,6:7.8,9710] 
it=iter (a) 
FOr IAD Tt 
print (i) 
上 面 的 代码 实际 上 使 用 了 和 迭代 器 ， 却 是 隐藏 式 的 ， 并 没有 看 到 next 0， 因 为 for 会 自动 调用 此 
对 象 。 要 是 使 用 next 0， 也 是 可 以 的 ， 改 写 代码 如 下 : 
a = [lr2r3r4r5r617r8r9710] 
it=iter (a) 
EOr 4 An ty 
print(it. next _()) # print (next (it)) 
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上 述 代码 的 输出 如 下 ， 读 者 可 以 考虑 一 下 原因 。 


LoarD 


0 


因为 for 会 自动 调用 一 次 next()， 上 述 代码 再 手动 调用 一 次 ， 就 相当 于 调用 了 两 次 next )， 所 
以 输出 结果 变 了 。 


5.7 生成 器 


生成 器 和 迭代 器 密切 相关 ， 如 果 没 有 掌握 从 代 器 ， 读 者 可 先 仔细 阅 读 上 一 节 。 本 节 的 生成 器 
是 一 个 返回 迭代 器 的 函数 ， 只 能 用 于 迭代 操作 。 


5.7.1 生成 器 的 概念 


简单 点 理解 ， 生 成 器 就 是 一 个 迭代 器 。 如 果 函 数 中 出 现 了 yield 关键 字 ， 在 调用 该 函数 时 就 会 
返回 一 个 生成 器 。 生 成 器 的 语法 就 是 出 现 yield 的 函数 。 
先 来 看 一 段 包含 函数 的 代码 : 


def count (n) : 
x=0 
while x < ni 
yield x 
x += 1 


for i in count (6) : 
print (i) 


上 述 代码 中 首先 定义 一 个 函数 count, 然后 使 用 for...in 的 形式 遍历 count 的 返回 值 。 这 个 时 候 ， 
count 就 是 一 个 生成 器 ， 该 函数 内 部 用 yield 返回 每 个 x 的 值 。 


注 意 


只 有 在 调用 时 才 会 生成 相应 的 数据 。 


5.7.2 ”生成 器 的 应 用 


斐 波 那 契 数列 (Fibonacci sequence) 又 称 黄金 分 割 数列 ， 它 以 数学 家 列 昂 纳 多 。 斐 波 那 契 
(Leonardoda Fibonacci) 的 名 字 命 名 ， 指 的 是 这 样 一 个 数列 : 


hp Ek TD ed 


在 数学 上 ， 斐 波 纳 契 数列 以 递归 的 方法 定义 : 
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F(0)=0, F(1)=1, F(n)=F(n-1)+F(n-2) (n>=2, nEN*) 

在 现代 物理 、 准 晶体 结构 、 化 学 等 领域 ， 斐 波 纳 契 数列 都 有 直接 的 应 用 。 
本 节 使 用 生成 器 生成 一 个 斐 波 那 契 数列 。 

【示例 5-16】 


01 def fib(max) : 


02 Dar Dm Or Oy 二 
03 while n < max: 

04 yield b # 注意 yield 

05 ar b = bl a +Db # 赋值 

06 nt=1 

07 # 当 所 有 数据 都 生成 完成 后 ， 会 返回 这 么 一 个 异常 ，StopIteration， 这 个 done 可 以 自 定义 
08 return 'done' 


09 fib generator = fib(20) 

10 print(fib generator) 

11 print(fib generator. next _()) 
12 print(fib generator. next _()) 
13 print(fib generator. next _()) 
14 print(fib generator. next _()) 
15 print(fib generator. next _()) 
16 print(fib generator. next _()) 
17 print(fib generator. next _()) 
18 

19 ”# 前 面 因为 已 经 使 用 next 取 过 几 个 数据 ， 所 以 这 里 直接 从 最 后 一 次 取 值 的 地 方 开始 循环 
20 while True: 


21 try: 

22 fib value = fib generator. next _() 

23 print ("fib value: %s" $% fib value) 

24 except StopIteration as fibs: 

25 print ("Generator return value: %s " % fibs.value) 
26 break 


上 述 代码 中 定义 了 一 个 函数 fib， 因 为 这 个 函数 使 用 了 yield， 所 以 不 能 再 称 为 函数 ， 而 应 
该 称 为 生成 器 。 代 码 中 所 有 的 语法 基本 都 已 经 学 习 过 ，try…except 是 捕获 运行 过 程 中 的 异常 情 
况 。 


5.8 装饰 器 


装饰 器 (Decorator) 本 质 上 是 一 个 函数 ， 它 可 以 在 其 他 已 设计 好 的 函数 基础 上 为 该 函数 增加 
额外 功能 。 装 饰 器 的 返回 值 也 是 一 个 函数 对 象 ， 本 节 将 介绍 装饰 器 的 使 用 。 


5.8.1 装饰 器 基础 


要 了 解 装饰 器 ， 先 来 看 一 段 简 单 的 代码 : 
【示例 5-17】 


01 def wl (func): 
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02 def inner() : 

03 print (' 额 外 功能 ' ) 
04 return func() 
05 return inner 

06 

07  @wl 


08 def f1(): 
09 Print (' 本 来 功能 ') 


11 f£1() 


针对 上 述 代 码 ， 我 们 必须 掌握 装饰 器 的 几 个 特性 : 


实质 : 
参数 : 
返回 : 
作用 : 
特点 : 


是 一 个 函数 ， 本 例 中 的 01~05 行 。 

是 要 装饰 的 函数 名 ( 并非 函 数 调 用 )， 本 例 为 func。 
是 装饰 完 的 函数 名 (也 非 函数 调用 )， 本 例 为 inner。 
为 已 经 存在 的 对 象 添加 额外 的 功能 。 

不 需要 对 对 象 做 任何 代码 上 的 变动 。 


本 例 中 的 函数 人 (0) 本 来 只 输出 “本 来 功能 ”这 一 行 ， 如 果 要 在 不 改变 该 函数 的 基础 上 为 其 增加 
额外 功能 , 就 单独 写 了 一 个 函数 w1()， 其 中 又 增加 一 行 输出 。 这样 在 人 0 函数 上 方 只 需要 增加 @w1 
(需要 单独 一 行 ) ， 就 为 它 增加 了 w10 函 数 的 功能 。 


很 多 人 习惯 把 装饰 器 称 为 Python 语法 糖 。 实 际 上 语法 糖 是 指 没有 为 语言 增加 新 功能 ， 却 提 


供 一 种 更 实用 的 编码 风格 ( 如 面向 过 程 开发 到 面向 对 象 开发 ， 就 只 是 一 种 更 实用 的 编码 风 
格 ).Python 语法 糖 就 是 Python 一 些 实用 的 编码 风格 ,比如 多 种 变量 的 组 合 形态 ( *args,**kw ) 
也 是 一 种 语法 糖 。 





5.8.2 不 带 参数 的 装饰 器 


前 面 的 代码 读者 可 能 会 想 不 通 , 为 什么 不 直接 将 功能 写 在 f10 函 数 中 ? 这 是 因为 在 大 型 项 目 中 
有 很 多 函数 ， 如 果 我 们 要 为 多 个 函数 增加 同一 个 功能 ， 就 增加 了 工作 量 。 比 如 数据 操作 有 增加 、 删 
除 、 更 新 3 个 操作 : 

【示例 5-18】 


def f1(): 


print ( "增加 数据 ') 


def f£2(): 


print ( "删除 数据 ') 


def f3() : 


Print ( "修改 数据 ') 
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现在 需求 发 生 了 变化 ， 在 数据 操作 前 给 用 户 一 个 提示 “ 真 的 要 操作 数据 吗 ? ”， 如 果 是 这 样 ， 
最 简单 的 操作 是 : 

def f1(): 
print (' 真 的 要 操作 数据 吗 ? ') 
Print ( "增加 数据 ' ) 

def f2(): 
print (' 真 的 要 操作 数据 吗 ?' ) 
print (' 删 除数 据 ' ) 

def f3(): 
print (' 真 的 要 操作 数据 吗 ? ' ) 
print ( "修改 数据 ') 


通过 复制 与 粘贴 ， 我 们 为 每 个 函数 增加 了 一 个 提示 功能 。 为 了 防止 旧 代码 发 生 错误 ， 不 允许 
修改 全、 亿 、 分 ， 这 种 情况 该 怎么 办 呢 ? 

我 们 使 用 装饰 器 再 看 一 下 : 

【示例 5-19】 


01 def Rddcheck(func) : 


02 def check() : 

03 Print (" 真 的 要 操作 数据 吗 ? ') 
04 return func() 

05 return check 

06 

07  @Addcheck 

08 def f1(): 


09 print (' 增 加 数据 ') 

10 ”eaddcheck 

11 def f2(): 

12 print (' 删 除数 据 ') 

13 QAddcheck 

14 def £3(): 

15 print (' 修 改 数据 ') 

代码 创建 一 个 装饰 器 AddCheck， 只 需要 在 使 用 该 装饰 器 功能 的 函数 上 方 添加 @AddCheck 就 

可 以 了 。 此 时 调用 包 、 亿 、 名 ， 都 会 先 输 出 “ 真 的 要 操作 数据 吗 ? ”这 句 话 。 


5.8.3” 带 参数 的 装饰 器 


前 面 创建 的 函数 不 带 参数 ， 如 果 创建 的 函数 带 一 个 参数 ， 那 么 装饰 器 中 的 函数 也 要 加 上 参数 。 
下 面 举例 : 
【示例 5-20】 


01 def Addcheck(func): 


02 def check(arg): 

03 print (' 真 的 要 操作 数据 吗 ?' ) 
04 return func(arg) 

05 return check 

06 


07 ”eaddcheck 
08 def fl(argl) : 
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09 print (' 增 加 数据 '+arg1) 
10 ”eaddcheck 

EE def f2 (argl) : 

12 print (' 删 除数 据 '+arg1) 
13 QAddcheck 

14 gef f3(argl): 

15 print (' 修 改 数据 '+arg1) 


当 人、 亿 、f3 只 有 一 个 参数 时 ， 只 需要 为 装饰 器 中 的 函数 增加 一 个 参数 。 要 是 每 个 函数 的 参 
数 不 固定 ， 比 如 以 下 函数 ， 分 别 有 1 个 参数 、2 个 参数 、3 个 参数 : 
def fl(argl) : 
Print ( "增加 数据 '+argl1) 
def f2 (argl,arg2) : 
Print ( "删除 数据 '+argl+arg2) 
def f3(argl,arg2,arg3): 
print (' 修 改 数据 '+argl+arg2+arg3) 
此 时 就 需要 用 到 前 面 学 过 的 组 合 参数 “* args,**kw” 来 表示 装饰 器 中 的 函数 了 。 代 码 如 下 : 
【示例 5-21】 


01 def Addcheck(func) : 


02 def check(*args, **kw): 

03 Print (" 真 的 要 操作 数据 吗 ? ') 
04 return func(*args,**kw) 
05 return check 

06 


07 addcheck 

08 def fl(argl): 

09 Print (' 增 加 数据 '+arg1) 

10 addcheck 

11 def f2(argl,arg2): 

12 print (' 删 除数 据 '+argl+arg2) 

13  Q@Addcheck 

14 def f3(argl,arg2,arg3): 

15 print (' 修 改 数据 '+argl+arg2+arg3) 


代码 第 02 和 第 04 行 在 定义 和 返回 装饰 器 函数 时 ， 增 加 了 不 固定 的 参数 和 关键 字 参 数组 合 形 
式 ， 这 样 不 管 多 少 个 参数 ， 什 么 类 型 的 参数 就 都 可 以 返回 了 。 


5.8.4 多 个 装饰 器 装饰 一 个 函数 


随 着 项 目的 变 大 ， 函 数 的 功能 会 越 来 越 多 ， 可 能 需要 为 一 个 函数 增加 多 个 功能 ，Python 也 是 
允许 为 一 个 函数 增加 多 个 装饰 器 的 ， 比 如 下 面 这 段 代 码 : 
【示例 5-22】 


01 def dl (func) : 


02 def check(*argsv**kw) : 

03 Print (" 真 的 要 操作 数据 吗 ? ') 
04 return func(*args, **kw) 
05 return check 


06 def d2 (func): 
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07 def check2 (*args,**kw):; 
08 Print (" 真 的 是 该 部 门 吗 ? ') 
09 return func(*argsv**kw) 
10 return check2 
EE 
12. Sal 
13 @d2 
14 def f1 (argl): 
15 print (' 增 加 数据 '+arg1) 
16 
17 ff(' 部 门 1') 


代码 第 12 和 第 13 行为 f10 函 数 增加 了 两 个 装饰 器 , 装饰 器 的 执行 顺序 与 写作 顺序 一 致 ,输出 
真 的 要 操作 数据 吗 ? 


真 的 是 该 部 门 吗 ? 
增加 数据 部 门 


5.9 上 下 文 管理 器 与 with 语句 


上 下 文 管理 器 (Context Manager) 常用 于 一 些 资源 的 操作 ， 需 要 资源 的 获取 与 释放 相关 的 操 
作 ， 典 型 的 例子 就 是 数据 库 的 连接 、 查 询 、 关 闭 ， 以 及 文件 的 打开 、 更 新 、 关 闭 等 操作 。 


9.9.1 


上 下 文 管理 器 的 几 个 概念 


我 们 可 以 把 上 下 文 管理 器 看 作 一 个 特殊 的 语句 块 ， 比 如 一 个 文件 的 打开 语句 ， 必 须 有 一 个 文 
件 的 关闭 语句 来 对 应 , 否则 就 会 造成 资源 浪费 , 那么 这 个 打开 … 关 闭 的 语句 块 就 是 一 个 特殊 的 语句 
块 。 为 了 防止 开发 人 员 忘 记 关 闭 ， 可 以 将 这 个 特殊 的 语句 块 放 在 上 下 文 管理 器 中 。 

上 下 文 管理 器 包括 上 下 文 的 定义 和 使 用 ， 它 涉及 两 个 概念 : 


上 下 文 管理 协议 : 如 果 一 个 类 中 包括 _enter 和 exit 两 个 魔术 方法 , 那么 我 们 可 以 说 这 个 
类 实现 了 上 下 文 管理 协议 ， 它 可 以 使 用 上 下 文 管理 器 。 
with.…as 语句 : 定义 好 上 下 文 管理 器 后 ， 通 过 该 语句 使 用 它们 。 


上 下 文 管理 协议 需要 实现 两 个 魔术 方法 : 


__enter (self 人): 进入 上 下 文 管理 器 时 调用 此 方法 , 其 返回 值 将 被 放 入 with...as 语句 中 as 指定 
的 变量 中 。 

__exit (selftype,value,tb): 离开 上 下 文 管理 器 调用 此 方法 。 如 果 有 异常 出 现 ，type、value、 
了 b 分 别 为 异常 的 类 型 、 值 和 追踪 信息 。 如 果 没 有 异常 ，3 个 参数 均 为 None。 此 方法 返回 值 为 
True 或 False， 分 别 指示 被 引发 的 异常 是 否 得 到 了 处 理 。 如 果 返 回 False， 引 发 的 异常 会 被 传 
递 出 上 下 文 。 


with-as 语句 的 语法 如 下 : 
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with context expr [as var]: 
语句 1 
语句 2 
context_expr 就 是 一 个 操作 对 象 ， 比 如 打开 的 文件 对 象 。var 是 对 象 的 名 称 。 语 句 1 和 语句 2 
都 是 对 该 对 象 的 操作 。 


5.9.2 上下文 管理 器 的 应 用 


前 面 的 理论 可 能 会 让 读者 一 头 雾 水 ， 下 面 通过 逐步 的 代码 演变 说 明 上 下 文 管理 器 。 
首先 设计 一 个 打开 文件 的 例子 : 
f = open('d:\\test.txt','w') 
f.write('Welcome ') 
f.write('to Beijing') 
f.close() 
上 述 代码 打开 文件 testtxt， 并 在 文件 中 写 入 一 些 数据 ， 然 后 关闭 文件 。 关 于 文件 的 操作 主要 
是 调用 Python 的 file 对 象 〈 一 个 文件 被 打开 后 ， 就 有 一 个 file 对 象 ) ， 后 面 我 们 会 有 更 详细 的 介 
绍 。 这 里 只 是 简单 地 演示 文件 操作 的 打开 、 写 入 、 关 闭 3 个 操作 。 
在 写 入 文件 的 时 候 可 能 会 因为 存储 空间 不 足 发 生意 外 ， 意 外 发 生 后 不 会 再 执行 文件 的 关闭 操 
作 。 这 种 情况 使 用 with.…as 语句 就 可 以 了 ， 不 用 担心 资源 没有 关闭 。 完 善 一 下 上 述 代 码 : 
with open('d:\\test.txt', 'w') as fo: 
fo.write('Welcome ') 
fo.write('to Beijing') 
上 述 代码 甚至 都 不 用 写 close() 函 数 就 能 关闭 文件 。 因为 file 对 象 支持 上 下 文 管理 器 , 所 以 它 可 
以 使 用 with.….as 语句 ， 该 语句 常用 的 地 方 就 是 对 于 文件 流 对 象 的 操作 。 
with.…as 语句 只 用 于 关闭 资源 ,通常 情况 下 ,对 于 语法 的 一 些 其 他 错误 处 理 , 我 们 还 是 需要 用 
try...except 语句 处 理 ， 比 如 当 打 开 的 文件 不 存在 时 : 
try: 
with open(fn, 'r') as f: 
pass 


except IOError: 
file = open(fn, 'w') 


5.9.3” 自 定义 上 下 文 管理 器 


前 面 说 过 ， 只 要 实现 了 上 下 文 管理 协议 (_enter _ 和 exit ) ， 就 可 以 使 用 上 下 文 管理 器 。 
本 小 节 将 学 习 自 定义 上 下 文 管理 器 。 

既然 要 实现 魔术 方法 ， 就 需要 一 个 类 ， 类 中 定义 _enter 和 _ exit 方法: 

【示例 5-23】 

01 class MyFileOpen: 


02 def init (self, filename, mode): 
03 self.filename = filename 
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04 self.mode = mode 

05 def enter (self): 

06 self.openedFile = open(self.filename，self.mode) 
07 return self.openedFile 

08 def exit (self, *unused): 

09 self .openedFile.close() 

10 

11 with MyFileOpen('test.txt','w') as fo: 

过 fo.write('Welcome ') 

3 fo.write('to Beijing') 


代码 定义 了 类 MyFileOpen， 其 中 实现 了 3 个 方法 : 

@ _init ， 构 造 方法 ， 实 例 化 类 时 自动 执行 ， 这 里 自动 赋值 文件 名 和 文件 打开 方式 。 
@ __enter ， 进 入 上 下 文 的 方法 ， 这 里 执行 一 个 open 打开 文件 的 函数 。 

@ _ exit ， 退 出 上 下 文 的 方法 ， 这 里 执行 close 关闭 文件 的 函数 。 


5.10 面向 对 象 实战 : 数字 图 形 


本 章 的 综合 应 用 ， 将 使 用 面向 对 象 的 思想 来 分 析 和 实现 一 个 小 程序 ， 这 个 程序 可 以 把 数字 用 
符号 * 所 组 成 的 图 案 打 印 出 来 。 例 如 数字 1234 可 以 打印 成 如 下 : 


庆 * 
* 站 和 * 

* 四 和 * 

* * # 

宙 
六 * 四 

六 * * 

六 * * 

宙 实 闫 突 突 宙 实 壬 突 舌 身 和 


5.10.1 需求 分 析 


这 个 程序 的 要 求 很 简单 ， 就 是 将 数字 字符 串 的 每 一 个 字符 在 一 个 9X9 的 空间 里 用 * 模 拟 出 数 
字 的 样子 ， 数 字 的 样子 与 计算 器 上 数字 的 样子 一 样 。 例 如 数字 9 的 数字 图 案 如 下 : 


闪闪 


四 
* 
* * 
* 


首先 使 用 用 例 图 描述 本 程序 的 功能 ， 用 例 图 是 UML 中 的 一 个 概念 。UML 为 面向 对 象 开发 系 
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统 的 产品 进行 说 明 、 可 视 化 ， 以 及 编制 文档 的 一 种 说 明和 绘图 标准 ， 就 像 盖 一 个 建筑 需要 很 多 设计 
图 一 样 ， 从 一 开始 的 建筑 设计 图 、 建 筑 力学 设计 图 ， 到 电气 管道 设计 等 。 软 件 开发 也 需要 很 多 种 设 
计 图 ，UML 为 面向 对 象 软件 开发 从 开始 到 开发 结束 ， 一 直到 程序 安装 和 部 署 ， 都 提供 了 一 系列 的 
方法 和 标准 。 

简单 地 说 ， 用 例 就 是 使 用 程序 每 个 功能 的 场景 ， 用 例 图 就 是 绘 出 程序 每 一 个 功能 的 使 用 场景 ， 
它 一 般 用 来 图 示 化 系统 的 主要 事件 流程 ， 描 述 客户 的 需求 。 图 5.4 绘 出 了 数字 图 案 转换 的 功能 ， 它 
的 功能 是 将 输入 的 数字 字符 串 打印 成 图 案 , 这 个 功能 实际 上 可 以 分 成 三 部 分 : 数字 字符 串 拆 分 , 将 
每 个 数字 字符 转换 成 图 案 ， 将 图 案 组 合 起 来 打印 。 












=<include>> 
A 


5 
5 
5 
/ 
\ 
\ 
\ 
\ 


\ 
<<include>> 
\ 








5.4 数字 图 案 转换 程序 的 用 例 图 


有 了 上 面 的 用 例 图 ， 就 可 以 以 此 为 依据 开始 分 析 。 在 分 析 的 时 候 ， 一 般 都 是 对 用 例 图 的 每 个 
用 例 逐 个 分 析 ， 主 要 确认 抽象 成 几 个 类 和 这 些 类 之 间 的 关系 。 图 5.4 是 一 个 总 用 例 ， 由 3 个 功能 模 
块 组 成 : 
数字 字符 串 拆 分 。 
将 每 个 数字 字符 转换 成 图 案 。 
将 图 案 组 合 起 来 打印 。 


这 3 个 功能 中 ， 数 字 字 符 串 拆 分 和 将 图 案 组 合 起 来 打印 较为 简单 ， 而 且 都 是 面向 使 用 者 的 ， 
因此 可 以 合并 在 一 起 用 一 个 类 来 处 理 。 该 类 的 主要 作用 是 接受 输入 的 数字 字符 , 拆 分 成 一 个 一 个 的 
字符 之 后 ， 提 供给 其 他 模块 转换 成 图 案 ， 再 将 图 案 组 合成 字符 串 进行 打印 ， 可 以 抽象 为 如 图 5.5 所 
示 的 类 。 
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5.5 图 案 打 印 类 


麻烦 的 是 将 每 个 数字 字符 转换 成 图 案 的 操作 ， 我 们 用 * 表 示 9X9 的 空间 模拟 一 个 数字 图 案 。 
首先 模拟 一 个 9X9 的 空间 ， 可 以 使 用 列表 ， 列 表 里 面 放 9 个 小 列表 ， 每 个 列表 里 放 9 个 元 素 ， 这 








样 就 可 以 使 用 list 和 中 表示 9X9 空间 的 第 i 行 第 j 个 元 素 了 。 将 这 个 列表 需要 打印 * 的 元 素 都 标志 出 
来 之 后 ， 以 一 个 小 列表 为 一 行 ， 以 每 个 元 素 为 每 个 字符 打印 出 来 ， 就 可 以 得 到 整个 图 案 了 ， 图 5.6 
说 明了 这 个 列表 的 样子 。 











图 5.6 图 案 转换 的 列表 样 例 


有 了 图 5.6 的 列表 之 后 , 通过 一 一 遍历 列表 的 元 素 就 可 以 得 到 一 个 数字 的 图 案 ,阿拉 伯 数字 有 
10 个 ， 每 个 数字 都 需要 一 个 这 样 的 列表 ， 每 个 列表 都 需要 按照 数字 的 样子 在 列表 中 填写 *， 因 此 这 
部 分 代码 可 以 共用 。 将 这 部 分 代码 抽象 成 父 类 ， 每 个 数字 再 设置 一 个 类 从 这 个 父 类 继承 ,这样 每 个 
数字 都 有 了 这 个 列表 和 添加 * 的 方法 ， 它 们 的 类 图 如 图 5.7 所 示 。 

[的 来 列表 | 








数字 零 


完成 图 案 列表 0 完成 图 案 列 表 0 完成 图 案 列表 0 完成 图 案 列表 () + 完成 图 案 列表 0) 


5.7 图 案 转 换 的 类 图 
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在 图 5.7 中 ， 抽 象 一 个 数字 图 案 总 类 ， 该 类 拥有 一 个 图 案 列表 属性 和 添加 * 到 行列 方法 ， 以 及 
完成 图 案 列表 方法 , 这样 各 数字 子 类 就 都 可 以 完成 各 自 的 图 案 列 表 的 填写 工作 。 图案 打印 类 只 需要 
调用 数字 图 案 总 类 的 完成 图 案 列表 方法 ， 它 们 之 间 的 关系 是 依赖 关系 ， 因 此 整个 类 图 的 设计 如 图 
5.8 所 示 。 










数字 图 案 总 类 图 案 打印 类 


use | 


Ta 
完成 图 案 列表 0 
Zs 















数字 四 


7 


J E1 
一 ， EE 一 
+ 于 成 网 案 列表 0) + 守成 辣 案 列表 0 





7 
| | [Ee 
完成 图 案 列 表 0 完成 图 案 列表 0 


图 5.8 程序 整个 类 图 设计 


图 5.8 的 类 设计 中 ,图 案 打印 类 负责 将 数字 字符 串 分 成 一 个 一 个 的 字符 ,比如 数字 字符 串 1234， 
那么 将 它 分 成 1、2、3、4， 如 果 是 1， 就 调用 数字 一 类 去 生成 数字 一 的 对 象 ， 如 果 是 2， 就 会 调用 
数字 二 的 类 去 生成 数字 二 的 对 象 , 然后 调用 这 些 对象 的 完成 图 案 列 表 方法 来 获得 图 案 列 表 。 这 样 每 
个 不 同 的 数字 都 要 调用 不 同 的 类 生成 对 象 。 

在 这 种 设计 中 ， 各 个 数字 对 象 的 细节 没有 被 隐藏 起 来 ， 图 案 打 印 类 还 需要 根据 字符 串 的 不 同 
去 调用 不 同 的 类 生成 对 象 , 这 样 别 人 还 是 需要 了 解数 字 图 案 的 细节 才能 使 用 ,封装 性 不 行 。 什 么 样 
面向 对 象 模型 才 是 好 模型 简单 的 说 ,就 是 要 包装 得 好 ， 要 封闭 内 部 细节 ， 就 像 电视 机 一 样 ， 不 需 
要 懂 无 线 电波 和 显像管 ， 只 要 一 按 下 就 能 看 到 电视 。 

面向 对 象 也 是 如 此 ， 追 求 的 是 经 过 包装 的 且 不 需要 去 关心 细节 就 可 以 使 用 的 类 ， 发 一 个 数字 
字符 给 它 ， 它 就 能 直接 给 我 一 个 对 应 的 图 案 列 表 ， 因 此 可 以 再 加 一 个 数字 工厂 类 ， 它 负责 根据 不 同 
的 数字 字符 ， 使 用 对 应 的 数字 类 去 实例 化 对 象 ， 这 个 工厂 类 就 像 一 个 对 象 工厂 一 样 ， 图 案 打印 类 只 
需要 把 需要 什么 样 的 对 象 告诉 工厂 类 , 工厂 类 就 返回 一 个 对 应 的 对 象 给 它 , 这 样 就 只 要 简单 地 使 用 
这 个 工厂 类 就 好 了 , 不 用 再 去 关心 那些 子 类 的 细节 。 图 5.9 就 是 加 入 工厂 类 之 后 的 整个 类 图 的 设计 。 
| 
TE 
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数字 零 数字 一 











完成 图 案 列表 0 完成 图 案 列 表 0 完成 图 案 列表 0 





图 5.9 改进 之 后 的 类 设计 


图 5.9 是 改进 之 后 的 类 设计 ,工厂 类 的 作用 就 是 根据 要 求 返回 对 应 的 数字 对 象 ， 就 像 电视 机 的 
外 壳 和 开关 一 样 ， 它 隐藏 了 内 部 实现 的 细节 ， 现 在 只 需要 简单 地 调用 工厂 类 就 可 以 了 。 
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5.10.2 程序 开发 


图 5.9 完成 了 程序 类 的 设计 ， 下 面 就 要 根据 这 个 设计 开始 编写 代码 了 。 这 个 程序 一 共有 13 个 
类 ， 其 中 10 个 是 数字 类 ， 继 承 于 数字 图 案 总 类 ; 工厂 类 负责 根据 数字 串 生成 数字 类 对 和 象 ， 图 案 打 
印 类 负责 接受 输入 ， 然 后 组 合 输出 的 数字 类 表 进行 打印 。 

首先 是 数字 图 案 总 类 ， 这 是 一 个 父 类 ， 它 拥有 一 个 图 案 列表 属性 和 两 个 方法 ， 它 的 类 图 如 图 
5.10 所 示 。 





图 案 列 表 


加 * 行 列 0 
图案 列表 () 


5.10 数字 图 案 总 类 





根据 图 5.10 的 类 图 ， 按 照 Python 定义 类 的 方法 ， 可 以 实现 如 下 代码 : 


class numpic: 
def _init (self): 
self.pic list=[[' ' for i in range(9)] for x in range(9)] 


def setpos(self,i,j): 
self.pic list[i][j]='*" 


def draw(self): 
return self.pic list 
类 numpic 的 pic_list 是 用 来 存放 数字 图 案 信 息 的 , setpos 则 是 用 来 把 第 i 行 第 j 个 字符 设置 为 * 
字符 。 虽然 每 个 数字 的 形状 不 一 样 , 但 是 仍 有 很 大 的 规律 ， 即 都 是 由 横行 或 竖 列 组 成 的 ， 数列 存 在 
半 列 的 情况 (如 数字 5) 。 对 于 这 些 共性 的 功能 应 该 放 到 父 类 中 实现 ， 因 此 类 numpic 新 设计 的 类 
图 应 该 如 图 5.11 所 示 。 


+ 添加 * 行 列 0 


+ 完成 图 案 列表 () 





图 5.11 改进 之 后 的 数字 图 案 总 类 
根据 图 5.11 的 新 设计 ， 类 numpic 的 代码 如 下 : 


01 class numpic: 


02 def _init (self): 

03 self.pic list=[[' ' for i in range(9)] for x in range(9)] 
04 

05 def setpos (self,i,j): 

06 self.pic_ list [i] [j]="*" 

07 

08 def draw(self) : 


09 return self.pic list 
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上 述 代 码 是 根据 图 5.11 的 设计 而 得 ，drawline 是 用 来 画 线 的 ，drawrow 用 来 画 竖 线 , 并 且 分 成 
了 上 半 列 和 下 半 列 。 有 了 父 类 提供 的 完备 方法 ， 子 类 的 实现 就 很 简单 了 ， 只 需要 在 父 类 的 基础 上 重 
载 draw 方法 ， 用 行 线 和 竖 线 把 数字 画 出 就 可 以 了 。 下 面 代码 就 是 数字 子 类 的 实现 。 





120 | ”Python 3.6 零 基 础 入 门 与 实战 


上 述 代 码 实现 了 10 个 阿拉 伯 数 字 的 数字 子 类 ， 它 们 都 是 通过 调用 继承 而 来 的 drawline 〈 画 横 
线 ) 和 drawrow ( 画 竖 线 ) 把 图 案 信息 写 到 图 案 列表 中 。 

工厂 类 ， 顾 名 思 义 就 是 生产 对 象 的 工厂 ， 它 负责 接受 传 进来 的 数字 字符 串 ， 生 成 对 象 的 对 象 
返回 。 工 厂 类 的 代码 如 下 : 
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02 def factory(self,which): 
03 if int (which)==0: 
04 return zeropic() 
05 elif int(which)==1: 
06 return onepic() 
07 elif int(which)==2: 
08 return twopic() 
09 elif int(which)==3: 
10 return threepic() 
下 elif int(which)==4: 
12 return fourpic() 
13 elif int(which)==5: 
14 return fivepic() 
15 elif int(which)==6: 
16 return sixpic() 
ph elif int(which)==7:; 
18 return severnpic() 
Eb elif int(which)==8: 
20 return eightpic() 
21 elif int(which)==9: 
22 return ninepic () 


上 述 代码 是 工厂 类 的 实现 , 可 以 看 到 工厂 类 实际 上 是 一 个 包装 器 , 它 包 装 了 10 个 子 类 的 使 用 ， 
这 样 对 外 部 来 说 ， 这 10 个 子 类 的 使 用 是 一 样 的 ， 都 调用 factory 方法 ， 这 就 是 面向 对 象 所 指 的 封装 


性 ， 这 种 设计 实际 上 是 设计 模式 中 的 Simple Factory 模式 。 


所 谓 设 计 模 式 是 一 套 被 反复 使 用 、 多 数 人 知晓 的 、 经 过 分 类 编目 的 、 代 码 设计 经 验 的 总 结 ， 


简单 来 说 就 是 “套路 "，《 设 计 模 式 


可 复 用 面向 对 象 软件 的 基础 》 书 中 提出 了 23 种 常用 





的 设计 模式 ，Simple Factor 模式 是 其 中 的 一 种 。 


现在 有 了 工厂 类 ， 就 可 以 按照 自己 的 要 求生 成 图 案 列 表 ， 图 案 打 印 类 只 要 负责 组 合 打印 图 案 


就 可 以 了 。 图 案 打 印 类 的 设计 如 图 5.12 所 示 。 


图 案 打 印 类 


需 转 换 | 





图 5.12 图 案 打 印 类 设计 


在 图 5.12 中 ， 图 案 打 印 类 有 3 个 操作 方法 ， 不 过 因为 现在 通过 工厂 类 获得 数字 字符 的 图 案 是 
很 简单 的 操作 , 所 以 提交 图 案 转换 可 以 和 组 合成 打印 图 案 这 两 个 方法 合并 在 一 起 , 该 类 实现 的 难点 


就 是 如 何 将 每 个 数字 字符 的 图 案 类 列表 组 合 起 来 ， 它 的 代码 实现 如 下 : 


01 class picprint: 


02 def _init (self): 
03 self.list total=[[] for x in range(9)] 
04 


05 def getprintstr (self, string): 
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06 self.num_str=string 
07 
08 def _unionpic(self,prc_list) : 
09 for step in range(9) : 
10 self.list total[step]+=["' ',' ']+prc list[step] 
I 
4 def printstr(self): 
13, num fact=numfact() 
14 for eve char in self.num str: 
Si num obj=num fact.factory (eve char) 
16 self. unionpic(num obj.draw()) 
17 print str="'" 
18 for sub list in self.list total: 
Eo) for every char in sub list: 
20 Print_str+=every_char 
2 print_strt='\n' 
22 print(print str) 


完成 了 。 


在 picprint 类 增加 了 一 个 类 方法 _unionpic， 因 为 该 方法 只 提供 给 类 内 部 调用 ， 所 以 前 面 加 了 
两 个 下 画 线 做 内 部 调用 , 这 个 方法 的 作用 是 将 各 个 数字 的 图 案 列表 拼接 起 来 , 即 把 图 案 列 表 里 的 每 
一 行 的 列表 累加 到 自己 的 列表 list_total 中 ， 图 5.13 说 明了 这 个 累加 的 过 程 。 
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第 二 个 图 案 列表 Es 
List_totaol 


图 5.13 ”图 案 列表 累加 的 过 程 


Picprint 类 的 列表 list_total 一 开始 设置 为 定 ， 对 数字 字符 串 的 每 个 字符 使 用 工厂 类 得 到 图 案 列 
表 之 后 ， 图 案 列表 就 不 停 地 加 到 list_total 中 ， 一 直到 数字 字符 串 的 最 后 一 个 字符 。 
list_total 累加 了 所 有 数字 字符 的 图 案 列 表 之 后 , 按 顺 序 把 每 个 元 素 打印 出 来 ,整个 程序 功能 就 





5.10.3 程序 入 口 


在 上 一 小 节 已 经 实现 了 所 有 的 类 ， 现 在 再 编写 一 下 程序 入 口 部 分 ， 程 序 就 算 完工 了 。 程 序 入 
口 主要 读 取 命 令 行 参数 并 传送 给 图 案 打 印 类 。 下 面 是 程序 入 口 的 代码 : 








if name ==" main ": 
print str=picprint() 


print str.getprintstr('6531') 


print str.printstr() 


程序 入 口 的 代码 很 简单 ， 只 是 将 需要 打印 的 字符 串 ( 本 例 代 码 中 的 '6531', 读者 也 可 以 随意 修 
改 要 打印 的 数字 ) 传 给 print_str (图案 管理 类 的 对 象 ) ， 然 后 使 用 printstr 打印 就 可 以 了 。 图 5.14 


所 示 是 程序 运行 结果 。 
>>> 


========================= RESTART: 
来 玉 尝 这 六 罕 闵 襟 六 六 于 闵 六 六 六 六 六 六 六 六 六 来 来 来 
炒 六 


天 米 


天 
来 来 来 素来 来 来 来 来。 率 来 来 灾 玉 六 来 六 。 率 率 来 来 六 来 来 


* * 
* * 
六 四 


来 来 来 来 来 束 来 玉 。 六 玉 玉 来 闵 率 。 闵 率 素 来 来 来 


>>> 


* 
六 


关 


* 
* 
六 


关 关 关 关 关 关 关 


5.14 数字 图 案 打印 程序 结果 
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F: /classPHOTO. py ========================= 
* 


Bug 这 个 词 在 程序 里 很 常见 ， 出 现 Bug 后 如 何 处 理 ， 或 者 说 如 何 预防 Bug 出 现 ， 是 任何 一 门 
编程 语言 都 需要 关注 的 问题 。 我 们 可 以 简单 理解 Bug 就 是 程序 的 异常 ，Python 也 提供 了 
try/except/finally 代码 块 来 处 理 异 常 ， 如 果 你 有 其 他 编程 语言 的 经 验 ， 实 践 起 来 并 不 难 。 当 出 现 错 
误 时 如 何 进行 调试 ， 也 是 开发 人 员 的 一 种 技能 ， 本 章 也 会 给 出 一 些 技巧 。 


6.1 识别 异常 


良好 的 异常 处 理 可 以 让 你 的 程序 更 加 健壮 ， 清 晰 的 错误 信息 也 能 帮助 你 快速 修复 问题 。 本 节 
将 介绍 Python 的 异常 处 理 概念 和 提示 信息 。 


6.1.1 异常 的 概念 


程序 设计 过 程 中 通常 会 遇 到 两 种 不 可 避免 的 错误 : 编译 错误 和 运行 错误 ， 这 两 种 错误 产生 的 
原因 、 对 程序 造成 的 影响 及 查找 错误 都 有 很 大 区 别 。 

编译 错误 是 由 于 编写 的 程序 不 符合 程序 的 语法 规定 而 导致 的 语法 问题 。 大 部 分 的 编译 错误 都 
是 由 于 对 编程 语言 的 语法 不 熟悉 或 拼写 错误 引起 的 。 如 果 违 反 了 编程 语言 的 规则 ,就 会 导致 程序 编 
译 错误 。 这 种 错误 也 称 为 语法 错误 。 

运行 错误 是 指 能 够 顺利 的 编译 通过 ， 在 程序 运行 过 程 中 产生 的 错误 。 例 如 ， 操 作文 件 的 时 候 
文件 无 法 找到 、 调 用 函数 的 参数 个 数 不 对 等 ， 如 果 出 现 这 样 的 错误 ， 程 序 会 停止 运行 。 但 是 这 样 的 
错误 不 容易 发 现 和 排除 。 

Python 中 的 异常 处 理 机 制 为 程序 提供 了 清晰 的 异常 终止 和 错误 处 理 的 接口 。 当 异常 发 生 时 ， 


第 6 章 程序 异常 与 调试 | 125 





发 生 异 常 的 方法 抛 出 一 个 封装 了 错误 信息 的 异常 对 象 。 此 时 程序 不 会 继续 运行 , 发 生 错误 的 方法 也 
不 会 返回 正常 运行 的 值 ， 异 常 处 理 机制 开 始 搜索 异常 处 理 器 来 处 理 这 种 错误 。 


6.1.2 ”语法 引出 的 异常 


语法 错误 引出 的 异常 一 般 是 因为 书写 代码 时 的 粗心 大 意 造 成 的 ， 比 如 在 解释 器 中 直接 输入 : 
print "hello world’ 


回 车 后 会 直接 提示 错误 信息 ， 如 图 6.1 所 示 ， 这 是 语法 引出 的 异常 情况 。 





rl ello worldl 
SyntaxError: Missing parentheses in call to ’print’. Did you mean print( hello w 
orld )? 





图 6.1 语法 引出 的 异常 
这 里 不 只 提示 错误 ， 还 会 告诉 开发 人 员 ， 是 不 是 需要 print(hello world)， 因 为 缺少 函数 的 0， 
所 以 这 里 报 Missing parentheses 错误 。 
6.1.3 运行 时 引出 的 异常 


运行 时 引出 的 异常 并 不 是 语法 错误 ， 一 般 是 代码 可 以 执行 ， 但 因为 某 些 特殊 情况 而 发 生 了 错 
误 ， 比 如 下 面 代 码 的 除数 为 0， 所 以 出 现 运行 时 错误 。 


a=10 

b=0 

c=a/b 

print(c) 

这 段 代码 的 b 是 除数 ， 但 其 初始 值 为 0， 学 过 数学 的 都 知道 ， 除 数 不 能 为 0， 没 有 实际 意义 ， 


半 1 
音 误 







“"D: /ferrorl.py’, line 3, in 《module> 
ZeroDivisionError: division by zero 


图 6.2 运行 时 引出 的 异常 








6.1.4 分析 异 常 提示 信息 


发 生 异 常 时 ，Python 会 抛 出 异常 ， 同 时 会 显示 发 生 异 常 的 相关 信息 ， 通 过 理解 这 些 信息 ， 读 
者 能 更 好 地 找到 异常 的 问题 所 在 。 先 看 前 面 代码 0 作 除 数 时 的 错误 信息 : 
Traceback (most recent call last) : 
File "D:/errorl.py", line 3, in <module> 
c=a/b 
ZeroDivisionError: division by zero 


126 | ”python 3.6 零 基础 入 门 与 实战 





异常 提示 为 了 表示 重要 性 ， 都 是 红色 提醒 ， 主 要 提示 信息 包括 : 


发 生 异常 程序 的 文件 名 和 具体 位 置 ， 如 本 例 的 File "D:/errorl.py"。 
发 生 异 常 的 语句 在 程序 中 的 行 号 ， 如 本 例 的 line 3。 

发 生 异 常 语句 的 源 代码 ， 如 本 例 的 c=a/b。 

发 生 了 哪 一 种 异常 ， 如 本 例 的 ZeroDivisionError。 

发 生 异 常 的 相关 错误 信息 ， 如 本 例 的 division by zero。 


6.2 ”Python 中 处 理 异 常 的 语法 


如 果 判 断 某 段 代码 可 能 在 执行 时 出 现 问题 ， 就 可 以 提前 设计 好 出 现 问题 后 的 解决 方案 ， 或 者 
给 出 提示 信息 。 与 Python 异常 处 理 相关 的 关键 字 包 括 try、except、else、finally 等 ， 异 常 的 基本 形 
式 也 使 用 这 些 关 键 字 。 处 理 异 常 的 语法 如 下 : 


try: 
pass 
except: 
pass 
else: 
pass 
finally: 
pass 


try 语句 只 有 1 个， 首先 被 执行 。except 语句 可 以 有 多 个 ，else 和 finally 子 句 是 可 选 的 ，else 
语句 必须 放 在 所 有 except 语 句 之 后 。 





如 上 面 语法 所 示 ，try 代码 块 内 监视 可 能 出 现 异常 的 程序 语句 ，except 代码 块 内 是 用 户 对 抛 出 
异常 对 象 的 处 理 语句 (如 果 没 有 错误 ， 就 忽略 该 代码 块 )，else 代码 块 放置 的 是 当 try 中 没有 发 生 
异常 时 要 执行 的 代码 ,finally 代码 块 应 放置 资源 清除 类 的 代码 , 用 于 清除 发 生 异 常 代码 执行 中 所 占 
用 的 资源 ， 比 如 关闭 打开 的 文件 、 网 络 链接 等 。 

现在 举例 ， 一 个 异常 的 捕获 : 


【示例 6-1】 
01 def TestError (qd) : 
02 try: 
03 print(' 正确 结果 : ', 8/d) 
04 except: 
05 Print (" 抛 出 一 个 异常 ") 
06 else: 
07 print(' 其 他 问题 !') 
08 finally: 
09 Print (' 异 常 终结 者 ') 
10 


I i=4 
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12 while (i>=0): 

13 TestError (i) 

14 i-=2 

本 例 结果 如 下 : 

正确 结果 : 2.0 

其 他 问题 ! 

异常 终结 者 

正确 结果 : 4.0 

其 他 问题 ! 

异常 终结 者 

抛 出 一 个 异常 

异常 终结 者 

本 例 实现 了 3 次 调用 。 第 1 次 i 是 4， 被 8 整除， 不 会 出 错 ， 不 执行 except 语句 ， 执 行 else 和 
finally 语句 。 第 2 次 i 是 2， 被 8 整除 ， 也 不 会 出 错 ， 同 样 执行 else 和 finally 语句 。 第 3 次 i 是 0， 
会 出 现 异常 执行 except 和 finally 语句 。 从 这 个 例子 也 可 以 看 出 ,不管 try 代码 块 中 是 否 有 异常 发 
生 ，finally 语句 始终 会 被 执行 ， 而 只 有 在 发 生 错 误 时 才 会 执行 except 语句 。 


6.3 ”处 理 异常 的 细节 


为 了 避免 用 户 无 法 继续 使 用 程序 ， 开 发 人 员 需 要 处 理 可 能 发 生 的 异常 ， 或 者 在 容易 引发 异常 
的 代码 中 添加 错误 处 理 方式 。 本 节 将 介绍 处 理 异 常 的 一 些 细节 。 


6.3.1 except 语句 的 多 种 形式 


except 语句 有 多 种 形式 可 供 选择 : 


. except: # 捕获 所 有 异常 

. except exp: # 捕获 指定 异常 

® exceptexpaserr: # 捕获 指定 异常 并 建立 实例 

® except(expl,exp2,...): # 捕获 指定 所 有 异常 

® except (expl,exp2,.….) as err: # 捕获 指定 所 有 异常 并 建立 实例 


对 于 可 预测 异常 类 别 的 异常 处 理 ， 一 般 使 用 带 有 指定 异常 类 的 except 语句 捕获 确定 的 异常 ， 
并 进行 相关 的 处 理 。 比 如 前 面 的 0 作 除数 的 错误 ， 可 以 改写 代码 : 





【示例 6-2】 
01 def TestError(d) : 
02 try: 
03 Print (' 正确 结果 : ', 8/d) 
04 except ZeroDivisionError: 
05 Print (" 抛 出 一 个 除 0 异常 ") 
06 else: 


07 print (' 其 他 问题 !') 
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第 04 行 通过 ZeroDivisionError 指定 具体 异常 。 当 异常 发 生 时 ， 也 会 给 出 具体 的 错误 ， 上 述 代 
码 结果 如 下 : 





当 有 多 个 except 语句 时 ， 具 体 该 怎么 执行 呢 ? 有 几 个 规则 : 

如 果 异 常 的 类 型 和 except 之 后 的 名 称 相符 ， 对 应 的 except 语句 就 被 执行 。 

如 果 一 个 异常 没有 与 任何 的 except 匹配 ， 那 么 这 个 异常 将 会 传递 给 上 层 的 try 中 。 
多 个 except 语句 时 ， 只 可 能 有 一 个 分 支 会 被 执行 。 

except (expl,exp2,...): 表 示 可 以 同时 处 理 多 个 异常 。 


下 面 举例 多 种 异常 ; 
【示例 6-3】 





上 述 代码 直接 写 了 一 个 无 限 循 环 ， 需 要 用 户 不 断 输入 信息 。 当 输入 的 不 是 数字 时 ， 处 理 异 常 
ValueError; 当 输 入 为 0 时， 处理 异常 ZeroDivisionError。 上 述 代码 执行 结果 如 图 6.3 所 示 ， 最 后 使 
用 Ctrl+C 组 合 键 退出 。 
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TT RESTART, D7errorl py == 


请 输入 一 个 整数 : 2 
正确 ! 











Traceback (most recent call st) 
File_ “DD: /errorl. ;和 lin in <module> 
s = input ("请 情 灾 3 一 个 整数 : ”) 
KeyboardInterrupt 
ba 














图 6.3 无 限 循环 的 异常 


根据 except 语句 支持 的 形式 ， 也 可 以 将 两 个 异常 写 在 一 起 。 上 述 代 码 可 以 修改 为 : 
【示例 6-4】 


while True: 
s = input (' 请 输入 一 个 整数 : 
try: 
i = int(s) 
i = 8/i 
except (ValueError ,ZeroDivisionError): 
print (' 输 入 错误 ! ') 
else: 
print (' 正 确 ! ') 


为 了 给 用 户 提示 具体 的 错误 ， 也 可 以 用 except (exp1,exp2,…) as err 形式 ， 继 续 修 改 代码 : 
【示例 6-5】 


while True: 
s = input (' 请 输入 一 个 整数 :') 
try: 
i = int(s) 
i = 8/i 
except (ValueError ,ZeroDivisionError) as err: 
print (err) 
else: 
print (' 正 确 ! ') 


如 果 为 异常 处 理 建 3 
供 错误 类 型 ， 如 图 6.4 所 示 。 





例 err，err 就 会 包含 所 需要 的 异常 处 理 信 息 ， 此 时 直接 输出 err 就 会 提 











请 输 从 一 不 要 到: 0 





请 输入 一 个 整数 : 
Traceback (most recent call last) 
File “D /ori 于 谓 line 25, in <module. 
了 


s = inputC 请 个 整数 :“) 
KeyboardInterrupt 


>>> 





图 6.4 输出 错误 类 型 
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6.3.2 ” 抛 出 异常 〈 引 发 异常 ) raise 


前 面 学 过 的 所 有 异常 的 产生 都 是 某 条 语句 在 执行 时 发 生 不 可 处 理 的 错误 ， 其 实 我 们 也 可 以 主 
动 抛 出 一 个 异常 , 这 就 需要 用 到 关键 字 raise。 很 多 高 级 语言 使 用 也 throw 抛 出 异常 , 两 者 意思 一 致 。 
raise 语法 如 下 : 

raise exp name 


exp_name 必须 是 一 个 异常 的 实例 或 类 。 下 面 演示 一 段 代码 : 
【示例 6-6】 

01 a=10 

02 b=0 

03 if(b==0): 

04 raise ZeroDivisionError 

05 print("good") 

程序 不 会 执行 最 后 一 条 print 语句 ， 而 是 在 抛 出 异常 时 就 退出 了 。 

在 抛 出 异常 时 ， 也 可 以 给 出 提示 : 


raise exp name (‘msg’) 


继续 演示 一 段 代 码 : 


【示例 6-7】 
01 a=10 
02 b=0 
03 if(b==0): 
04 raise ZeroDivisionError('"0 不 能 被 除 啊 ' ) 


05 print("good") 
上 述 代码 的 执行 结果 如 下 : 


Traceback (most recent call last): 
File "D:/errorl.py", line 38, in <module> 
raise ZeroDivisionError('0 不 能 被 除 啊 ' ) 

ZeroDivisionError: 0 不 能 被 除 啊 


6.4” 自 定义 异常 


前 面 看 到 的 各 种 异常 (ZeroDivisionEror、ValueError) 其 实 都 是 Exception 类 的 子 类 。 开 发 人 
员 也 可 以 通过 继承 Exception 类 实现 自 定义 的 异常 ， 语 法 如 下 : 
class TestError (Exception): 


语句 1 
语句 2 


下 面 演示 一 个 自 定义 异常 : 
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【示例 6-8】 

01 class TestError(Exception): 

02 def init (self，err=' 数 据 库 错误 '): 
03 Exception. init (self,err) 

04 


05 raise TestError 


上 述 代码 定义 了 一 个 类 TestError， 继 承 自 Exception 类 。 在 类 中 重 写 _init 方法 ， 定 义 错误 
提示 信息 “数据 库 错误 ”， 然 后 使 用 raise 抛 出 异常 ， 结 果 如 下 : 
Traceback (most recent call last) : 
File "D:\errorl.py", line 47, in <module> 


raise TestError 


TestError: 数据 库 错 误 





6.5 ”调试 程序 


许多 程序 员 都 有 这 样 的 经 历 : 无 论 自己 编写 多 么 短 的 程序 ， 一 般 很 难 一 次 就 能 通过 编译 ， 并 
且 通 过 编译 的 功能 还 不 一 定 是 正确 的 。 这 也 是 为 什么 很 多 软件 经 常 有 Bug， 很 多 应 用 经 常 打 补丁 。 
要 找到 错误 ， 我 们 就 需要 调试 程序 ， 本 节 将 讲解 两 种 调试 方法 。 


6.5.1 IDLE 的 简单 调试 
程序 调试 常见 的 是 语法 问题 ， 比 如 多 余 的 空格 缩 进 、 错 误 的 Python 保留 字 拼 写 、 函 数 的 参数 


个 数 等 。 如 果 用 的 是 IDLE 编辑 器 ， 当 按 F5 键 执行 程序 时 ， 会 给 出 一 些 具体 的 错误 提示 ， 以 及 错 
误 位 置 。 比 如 以 下 这 段 九 九 乘法 表 代 码 : 


【示例 6-9】 

01 “# 九 九 乘法 表 

02 for i in range(l, 10): 

03 for j in rang(l, i+1): 

04 print('{}x{}={}\t' .format (i, j, i*j), end="'') 
05 Print () 


运行 代码 ， 出 现 如 图 6.5 所 示 的 错误 。 









Traceback (most recent call last): 
File “D:\errorl.py’, line 51, in <module> 
for j in rang(l, i+1): 
NameError: name rang is not defined 
>>> 





图 6.5 错误 提示 


这 里 提示 了 第 51 行 是 循环 的 原因 ， 然 后 给 出 NameError 的 错误 ， 是 range 拼写 错 了 ， 修 改 第 
03 行 的 rang 为 range， 程 序 就 可 以 正常 运行 了 ， 结 果 如 下 : 
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1x1=1 

2x1=2 2x2=4 

3x1=3 3x2=6 3x3=9 

4x1=4 4x2=8 4x3=12 4x4=16 


5x1=5 5x2=10 5x3=15 5x4=20 5x5=25 

6x1=6 6x2=12 6x3=18 6x4=24 6x5=30 6x6=36 

7x1=7 7x2=14 7x3=21 7x4=28 7x5=35 了 7x6=42 7x7=49 

8x1=8 8x2=16 8x3=24 8x4=32 8x5=40 8x6=48 8x7=56 8x8=64 

9x1=9 9x2=18 9x3=27 9x4=36 9x5=45 9x6=54 9x7=63 9x8=72 9x9=81 


6.5.2 ”利用 日 志 模块 logging 调试 


Python 标准 库 中 为 我 们 提供 了 日 志 功 能 ， 即 logging 模块 (模块 的 意义 和 使 用 会 在 本 书后 面 章 
节 中 做 详细 介绍 ) 。 用 logging 模块 跟踪 程序 运行 的 大 量 信息 ， 当 我 们 需要 调试 信息 时 ， 它 会 在 运 
行 中 打印 跟踪 信息 。 当 程序 调试 完成 后 ， 可 以 通过 一 个 语句 来 关闭 所 有 的 调试 信息 。 
logging 模块 的 基本 使 用 方法 如 下 : 
(1) 首先 在 程序 的 开头 要 使 用 以 下 语句 导入 logging 模块 ， 并 配置 日 志 的 显示 级 别 : 


import logging 
logging. basicConfig (Ilevel=1ogging.DEBUG) 


(2) 在 需要 跟踪 变量 的 程序 中 的 某 行 添加 以 下 语句 : 

logging.info(“j:%d”,j) 

当 这 条 语句 执行 时 ， 就 会 输出 j 变量 在 运行 过 程 中 的 值 ， 便 于 我 们 跟踪 变量 并 调试 程序 。 

(3) 当 我 们 调试 完成 后 ， 程 序 在 运行 时 就 不 需要 显示 这 些 跟踪 信息 了 。 我 们 可 以 通过 注释 掉 
以 下 语句 来 关闭 跟踪 信息 的 显示 : 

# logging. basicConfig (level=logging.DEBUG) 

如 果 以 后 还 需要 调试 ， 就 将 这 条 语句 的 注释 去 掉 ， 即 可 恢复 调试 信息 的 显示 。 修 改 前 面 的 九 
九 乘法 表 : 

【示例 6-10】 


01 import logging 

02 logging. basicConfig (level=logging.DEBUG) 
03 “# 九 九 乘法 表 

04 for i in range(l, 10): 


05 for j in range(1，i+1): 

06 print('{}x{}={}\t' .format (i, j, i*j), end="'') 
07 logging.info('j:%d',j) 

08 print () 


代码 第 07 行 输出 变量 j 的 值 ， 因 为 在 循环 中 ， 所 以 会 多 次 和 输出， 结果 如 图 6.6 所 示 。 当 我 们 
调试 完成 后 ， 只 需要 注释 掉 第 07 行 的 代码 即 可 。 


第 6 章 程序 异常 与 调试 | 133 


= RESTIRT DVerTorT Py = 
lxl=1 INFO: root:j:1 























2xl=2 INFO:root:j:1 
2x2=4 INFO:root:]:2 


3x1=3 INFO: root:j:1 
3x2=6 INFO:root:]:2 
3x3=9 INFO:root:j:3 


dxl=4 INFO:root:j:1 
dx2=8 INFO:root:;]:2 
dx3=12 INFO:root:]:3 
dxd=16 INFO: root: J:4 


5xl=5 INFO: root:j:1 
5x2=10 INFO: root: ]:2 
5x3=15 INFO: root: j:3 
5x4=20 INFO: root: J]:4 
5x5=25 INFO:root;]:5 


6x1=6 INFO:root;j:1 








6x6=36 __INFO: root: ]:6 





图 6.6 调试 信息 


6.5.3 利用 pdb 调试 


上 一 小 节 所 述 的 Python 的 简单 调试 方法 都 是 在 程序 中 直接 加 入 相关 的 信息 输出 语句 ， 使 得 程 
序 在 运行 的 过 程 中 ,不断 得 到 变量 值 的 实时 和 输出， 然后 通过 跟踪 和 观察 ， 对 程序 进行 调试 。 这 种 方 
式 下 ， 程 序 是 一 次 性 运行 完成 ， 然 后 得 到 运行 中 的 状态 数据 。 而 有 时 ， 我 们 需要 程序 运行 到 某 个 关 
键 的 语句 之 前 或 之 后 暂停 下 来 , 研究 和 分 析 此 时 程序 的 状态 , 还 可 以 随时 控制 程序 运行 到 某 条 语句 
-停止 ， 这 就 需要 使 用 调试 工具 来 分 析 和 试 运行 程序 。 
常见 的 Python 程序 的 调试 工具 有 好 几 种 ， 比 如 Python 自 带 的 pdb, 还 有 一 些 其 他 的 调试 工具 ， 
如 spyder、pydev 等 。 本 小 节 主 要 介绍 Python 标准 库 中 提供 的 调试 工具 ， 即 pdb。pdb 是 Python 自 
带 的 一 个 包 ， 为 Python 程序 提供 了 一 种 交互 的 源 代码 调试 功能 ， 主 要 特性 包括 设置 断 点 、 单 步调 
试 、 进 入 函数 调试 、 查 看 当前 代码 、 查 看 栈 片段 、 动 态 改变 变量 的 值 等 。 





pdb 的 使 用 方式 主要 有 3 种 : 
(1) 在 交互 式 环境 下 ， 直 接 通 过 以 下 语句 启动 调试 : 
import pdb 


import my module 
padb.run(‘my module.test ()’) 


(2) 在 程序 的 开头 先导 入 pdb 库 ， 然 后 在 程序 要 设置 的 断 点 处 加 入 : 

pdb .set_trace() 

(3) 在 命令 行 模式 下 ， 使 用 python 命令 直接 运行 程序 ， 需 要 带 上 参数 ， 如 下 : 

Python -m pdb test.py 

在 使 用 pdb 进入 调试 模式 后 ， 会 有 一 些 子 命令 供用 户 调试 使 用 。 可 以 在 调试 模式 中 使 用 h 命 
令 来 显示 所 有 的 子 命令 。 这 里 列 出 几 个 常用 的 调试 命令 : 

ee 1 # 列 出 当前 要 运行 的 代码 块 

@ bb 行 号 # 在 某 行 处 设置 
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ee b # 显 示 所 有 断 点 
® cl # 清 除 所 有 断 点 
® disable # 禁 用 断 点 
® enable # 激 活 断 点 
® next) # 单 步 执 行 
® c(ontinue) 术 云 行 到 断 点 
® s(tep) # 进 入 函数 
® plrint) 计 T 印 变量 值 
ed 扩 民 出 


还 是 以 九 九 乘法 表 为 例 导 入 pdb 包 ， 六 





【示例 6-11】 


01 import pdb 

02 “# 九 九 乘法 表 

03 for i in range(l, 10): 

04 for j in range(l, i+1): 
05 pdb.set trace() 

06 

07 Print() 


第 01 行 导入 pdb 包 ， 第 05 行 设置 断 点 ， 


> d:\errorl.py(55) module> () 


使 用 pdb.set_trace() 设 置 断 点 ， 如 下 : 


print('{}x{}={}\t' .format (i, j, i*j), end="'') 


-> print(’ {}x{}={}\t’ .format (i, j, i*j), end="") 
(Pdb) | 





此 时 可 以 输入 pdb 的 一 些 命令 ,如 用 p 


果 如 图 6.8 所 示 。 








i \errorl. Ppy(55) <module> () 


-> printC {x{}={}\t" .format 
Pdb) p 1 


1 


ra 




















Edb) n 

1xl=1 > d:\errorl. py (53) Cm 
| ange(l, 1+1): 
(Pdb) 


Traceback (most recent call 
File “D:\errorl.py”, line 
for j in range(l, i+1) 
File “D:\errorl.py’, line 
for j in range(l, i+1) 
bdb. BdbQuit 
>>>| 


6.7 设置 断 点 


打印 当前 的 i 或 j 变量 ， 用 n 单 步 执行 ,用 q 退出 ， 结 


============ RESTART: 也: \errorl.Ppy 一 = 一 一 一 一 一 一 一 一 一 一 一 一 一 


(i, j, i*j), end="’) 


odule> () 


last) 
53, in <module> 


53, in <module> 





图 6.8 q 退 出 


运行 代码 后 会 停留 在 pdb 调试 界面 ， 如 图 6.7 所 示 。 
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6.6 ”异常 实战 : 计算 机 猜 数 


所 谓 计算 机 猜 数 程序 ， 就 是 由 人 想 一 个 四 位 数 〈 四 个 数字 不 能 为 重复 数字 和 0) ， 让 计算 机 猜 
这 个 四 位 数 是 多 少 。 每 次 计算 机 打出 一 个 四 位 数字 后 ， 人 首先 判断 这 四 位 数字 中 有 几 位 是 猜 对 了 ， 
并 且 在 对 的 数字 中 又 有 几 位 位 置 也 是 对 的 , 将 结果 输入 到 计算 机 中 , 给 计算 机 以 提示 ,让 计算 机 再 
猜 ， 直 到 计算 机 猜 出 人 想 出 的 四 位 数 是 多 少 为 止 ， 整 个 猜 数 过 程 如 图 6.9 所 示 。 第 一 次 时 ， 人 必须 
先 输入 ok， 表 示 程 序 开始 ， 最 后 输入 yes， 表 示 程 序 结束 。 








图 6.9 计算 机 猜 数 程序 示例 图 


6.6.1 需求 分 析 


解决 这 类 问题 时 ， 计 算 机 的 思考 过 程 不 可 能 像 人 一 样 具有 完备 的 推理 能 力 ， 关 键 在 于 要 将 推 
理 和 判断 的 过 程 变 成 一 种 机 械 的 过 程 ， 找 出 相应 的 规则 ， 和 否则 计算 机 难以 完成 推理 工作 。 

基于 对 问题 的 分 析 和 理解 ， 将 问题 进行 简化 ， 首 先 每 一 次 提示 信息 ， 都 是 包括 两 方面 信息 
数字 组 成 信息 和 数字 位 置信 息 。 而 计算 机 每 次 试探 不 过 是 根据 提示 信息 来 缩小 可 能 的 组 合 , 因此 计 
算 机 猜 数 的 步骤 可 以 总 结 如 下 


(1) 计算 机 随机 生成 一 个 四 位 数字 。 

(2) 根据 人 给 的 提示 信息 获得 一 个 可 能 的 四 位 组 合 的 集合 ， 对 于 根据 提示 消息 获得 所 有 可 能 
的 组 合 。 可 以 分 两 步 来 做 ， 先 根据 提示 获得 数字 组 合 和 位 置信 息 ， 并 分 析 数 字 组 合 的 信息 ， 获 得 所 
有 满足 该 组 合 的 可 能 性 的 集合 ， 再 根据 位 置信 息 ， 进 一 步 缩 小 所 有 的 可 能 性 。 

(3) 从 四 位 可 能 性 的 集合 中 取出 一 个 四 位 数字 。 

(4) 再 根据 人 的 新 提示 ， 在 上 面 可 能 性 的 集合 中 去 掉 不 满足 这 次 提示 条 件 的 数字 ， 生 成 新 的 
可 能 性 集合 。 

(5) 新 集合 如 果 只 有 一 个 元 素 的 话 ， 就 成 功 得 到 了 结果 ， 可 以 退出 。 如 果 不 是 ， 转 到 第 三 步 ， 
重复 以 上 步骤 。 

图 6.10 所 示 就 是 根据 上 面 的 算法 来 绘制 的 流程 图 ， 从 图 中 可 以 看 出 该 程序 实现 的 难点 在 于 如 
何 根据 用 户 输入 的 提示 信息 得 到 一 个 所 有 可 能 性 的 集合 。 实际 上 , 计算 机 要 做 的 就 是 根据 人 给 的 提 
示 信 息 缩小 可 能 性 的 组 合 ， 一 直 缩 小 到 只 有 一 个 的 时 候 ， 就 找到 用 户 心 里 所 想 的 数字 。 
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- 面 步骤 



































6.10” 猜 数 程序 流程 图 


6.6.2 ”算法 分 析 


从 需求 分 析 可 以 看 出 ， 根 据 用 户 给 出 的 提示 信息 ， 如 何 去 获 得 一 个 所 有 可 能 性 的 集合 是 实现 
这 个 程序 的 难点 。 

例如 , 当 计算 机 给 出 一 个 数字 1234, 用 户 给 出 提示 3 和 1, 表示 他 所 想 的 数 有 3 个 数字 在 1234 
中 ,但 是 只 有 一 个 数字 的 位 置 是 正确 的 。 在 这 种 情况 下 ,计算 机 如 何 去 获得 所 有 满足 这 个 条 件 的 集 
合 ? 


用 户 给 的 提示 信息 实际 上 包括 两 部 分 : 


(1) 有 3 个 数字 是 在 1234 中 。 这 说 明 用 户 的 数字 是 1234 中 任意 三 个 数字 的 组 合 ， 但 是 不 包 
括 1234 这 四 个 数字 的 组 合 ， 有 并 且 只 有 三 个 数字 在 1234 中 。 

(2) 只 有 1 个 数字 位 置 正确 。 只 有 一 个 数字 位 置 正确 ， 说 明 其 他 三 个 数值 位 置 都 不 正确 ， 所 
以 需要 从 上 面 组 合 中 再 缩小 范围 ， 只 保留 那些 有 一 个 并 且 只 有 一 个 数字 的 位 置信 息 和 1234 是 相同 
的 。 

下 面 分 开 讨论 如 何 实现 : 
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1. 根据 用 户 提供 的 组 成 信息 i， 找 出 所 有 可 能 性 

计算 机 给 出 一 个 四 位 数 i， 用 户 提供 有 j 个 数字 是 在 i 中 ， 求 用 户 的 数 的 所 有 可 能 性 ， 也 就 是 
实现 一 个 函数 f (j,i) ， 该 函数 要 返回 所 有 可 能 性 的 集合 。 例 如 ， 计 算 机 给 定义 数字 1234， 用 户 提 
示 2， 那么 只 需要 将 每 种 可 能 的 四 位 数 和 1234 做 比较 ， 有 2 个 并 且 只 有 2 个 数字 在 1234 数 中 ， 就 
说 明 有 可 能 是 用 户 想 的 数字 ， 代 码 如 下 : 


01 def getpossible(all possible,mac num,shot num):; 


02 listl=list (str(mac num)) 

03 re list=[] 

04 for every num in all possible: 

05 bingo num=0 

06 for every char in list(str(every num)): 
07 if every char in listl: 

08 bingo numt+=1 

09 if bingo num==shot num: 

10 re list.append (every num) 

3 return re list 


上 面 的 代码 中 ，all_possible 是 上 一 次 运算 得 到 的 所 有 可 能 性 的 集合 (如 果 是 第 一 次 ， 那 么 
all_possibl 就 是 1~9 四 位 不 重复 数字 的 所 有 可 能 性 的 集合 ) ， 对 该 all_possible 每 个 字 和 mac_num 
(计算 机 给 出 的 数 ) 进行 比较 ， 如 果 all_possible 中 的 数 (every_num) 中 的 数字 (every_char) 在 
计算 机 输出 的 数 (mac_num) 中 的 个 数 和 人 给 的 提示 的 数 shot_num 一 样 〈 用 in 操作 来 判断 )， 就 
把 该 数 放 到 可 能 性 的 集合 re_list 里 面 ， 图 6.11 用 来 解释 这 个 过 程 。 
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假设 计算 机 猜 了 一 个 3451, 用 户 给 了 提示 3, 那么 从 图 6.11 可 以 看 出 , 计算 机 取出 一 个 数 4513， 
然后 从 4 开始， 每 个 数字 都 去 3451 里 判断 一 下 ,是 否 是 3451 四 个 数 中 一 个 ， 如果 是 ，BINGO_NUM 
加 1， 一 直到 四 个 数字 全 部 处 理 完 ， 然 后 BINGO_NUM 就 保存 了 4513 有 几 个 数 在 3451 中 ， 用 
BINGO_NUM 和 用 户 提示 的 SHOT_NUM 比较 一 下 , 就 可 以 知道 该 数 有 没有 可 能 是 用 户 心里 想 的 数 。 
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2. 根据 用 户 提供 的 位 置信 息 找 出 所 有 可 能 性 

根据 位 置 找 出 所 有 可 能 性 的 方法 与 根据 数字 组 成 信息 找 可 能 性 很 相似 ， 方 法 都 是 从 一 个 可 能 性 的 
组 合 中 取出 所 有 的 数字 ， 然 后 和 计算 机 给 定 的 数 做 比较 ， 如 果 该 数 的 数字 和 位 置 的 信息 都 对 得 上 的 个 
数 与 用 户 提示 的 位 置 数据 是 一 致 的 话 ， 那 么 就 把 该 数 放 到 结果 列表 中 ， 下 面 是 实现 的 代码 ; 


01 def getinsible(all possible,mac num,shot num):; 


02 mac_ str=str (mac num) 

03 re list=[] 

04 for every num in all possible: 

05 bingo_num=0 

06 for iter in range(4) : 

07 if strl(every num) [iter]==mac_str[iter]: 
08 bingo numt+=1 

09 if bingo num==shot num: 

10 re list.append (every num) 

11 return re list 


上 面 的 代码 中 ， 关 键 是 04~10 行 的 代码 ， 这 几 行 代码 是 用 来 比较 数字 和 位 置 是 否 一 致 的 ， 它 
通过 将 数字 的 四 个 数字 一 一 进行 比较 ， 如 果 有 一 致 的 就 累加 1， 最 后 在 09 行 ， 将 得 到 的 数字 和 位 
牧 都 正确 的 数目 与 用 户 提示 的 数目 进行 比较 ,如果 一 致 ， 说 明 是 可 能 性 之 一 ， 放 到 结果 列表 中 。 这 
个 过 程 差别 在 于 比较 的 过 程 ， 如 图 6.12 所 示 。 
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图 6.12 位 置信 息 比较 过 程 


位 置信 息 的 比较 和 数字 组 成 不 同 ， 它 是 将 4513 和 3451 一 个 数字 对 一 个 数字 进行 比较 ， 根 据 
有 几 个 数字 ， 去 和 用 户 的 提示 数字 比较 ， 就 可 以 知道 该 数 是 否 可 能 是 用 户 所 想 的 那个 数 。 


6.6.3 ”编程 实现 


前 面 分 析 了 需求 和 算法 ， 本 小 节 开 始 着 手 实现 。 该 应 用 中 ， 主 要 是 人 和 计算 机 交互 ， 计 算 机 
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实际 就 是 每 次 根据 人 的 提示 打印 出 一 个 新 的 数 , 然后 人 继续 给 出 新 的 提示 , 直到 计算 机 确认 数字 正 
确 为 止 。 这 样 可 以 把 这 个 计算 机 抽象 成 一 个 类 TComputer， 这 个 类 的 作用 就 是 接受 用 户 的 提示 ， 然 
后 根据 提示 打印 数 ， 那 么 该 类 的 设计 如 图 6.13 所 示 。 


TComputer 




















6.13 ”Tcomputerd 的 类 设计 
实际 上 计算 机 每 次 打印 新 猜 的 数 ， 都 是 要 根据 用 户 提示 信息 进行 一 番 运 算 的 ， 并 根据 用 户 提 
供 的 数字 组 成 和 位 置信 息 来 缩小 可 能 性 的 组 合 ， 因 此 该 类 的 设计 应 该 加 上 6.5.2 节 的 两 个 算法 ， 以 
及 添加 一 个 列表 属性 用 于 存放 可 能 性 的 集合 。 图 6.14 是 增加 了 属性 和 方法 之 后 的 类 设计 图 。 


-可 能 性 集合 列表 
+ 接受 用 户 输入 0 


+ 打印 猜 的 新 数 0 
-根据 数字 组 成 信息 
-根据 数字 位 置信 息 缩小 范围 0 





6.14 ”Tcomputer 的 改进 设计 
根据 上 面 Tcomputer 的 设计 ， 可 以 使 用 Python 实现 该 功能 ， 代 码 如 下 : 


01 class TComputer: 


02 def _init (self): 
03 self.possible list=[] 

04 for i in range(1,10): 

05 for j in range(1,10): 

06 for x in range(1,10): 

07 for y in range(1,10): 

08 if i!=j and i!=x and i!=y and j!=x and j!=y and x!=y; 
09 self.possible list.append(i*1000+j*100+x*10+y) 
10 

11 def _ getinsible(self,all possible,mac num,shot num); 

3 mac_str=str (mac_num) 

3 re list=[] 

14 for every num in all possible: 

5 bingo num=0 

16 for iter in range(4): 

Ty if str (every_num) [iter]==mac_str[iter]: 

18 bingo_num+=1 

19 if bingo_num==shot_num: 

20 re_list.append(every_num) 

21 return re list 

2 

| def _ getpossible(self,all possible,mac_num, shot_num) : 


24 listl=list (str(mac num)) 
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25 re list=[] 

26 for every num in all possible: 

27 bingo num=0 

28 for every char in list(str(every num)): 

29 if every char in listl: 

30 bingo numt+=1 

3 if bingo num==shot num: 

32 re list.append (every num) 

33 return re list 

34 

35 def getuserinput (self,has info,pos info) : 

36 self.has info=has info 

37 self.pos info=pos info 

38 

39 def printnum(self): 

40 if self.has info=='ok': 

41 self.cur num=self.possible list[618] 

42 return self.cur num 

43 else: 

44 self.possible list=self. getpossible(self.possible list,self.cur num, 
self.has info) 

45 self.possible list=self. getinsible(self.possible list,self.cur num, 
self.pos info) 

46 self.cur num= self.possible list[0] 

47 return self.possible list[0] 


上 面 实现 的 _getinsible 和 __getpossible 方法 实际 上 是 6.5.2 节 算 法 分 析 中 的 两 个 函数 ， 新 加 的 
主要 是 初始 化 、getuserinput 及 printnum 方法 。 


(1) 初始 化 方法 。 主 要 生成 一 个 所 有 的 四 位 组 合 数 的 列表 possible_list， 该 列表 存放 所 有 的 四 
位 组 合 数字 。 

(2) getuserinput 方法 。 这 个 方法 作用 比较 简单 ， 它 只 是 从 用 户 那里 接受 提示 信息 

(3) printnum 方法 。 这 是 Tcomputer 的 关键 方法 ， 它 的 作用 是 根据 用 户 的 提示 信息 返回 一 个 
新 猜 的 数 。 它 判断 用 户 的 输入 ， 如 果 用 户 输入 ok， 说 明 是 第 一 次 让 Tcomputer 猜 数 ， 那 就 从 
possible list 任 挑 一 个 返回 ; 否则 首先 使 用 getpossible， 这 个 函数 可 以 根据 用 户 提供 的 数字 组 成 信息 
缩小 集合 possible_list， 然 后 使 用 getinsible， 根 据 用 户 提供 的 位 置信 息 进 一 步 缩小 集合 。 

在 实现 了 Tcomputer 之 后 ， 下 面 的 工作 只 需要 写 下 和 用 户 的 交互 就 可 以 了 ， 如 下 : 


01 if _name ==' main ': 


02 computer=TComputer () 

03 Print (" 计 算 机 :准备 猜 数 ? ") 

04 while 1: 

05 value=input ("人 :") 

06 if value=="ok": 

07 computer.getuserinput (value, '') 

08 print ("计算 机 :"+str (computer.printnum())) 
09 elif value=="yes": 

10 Print (" 计 算 机 :bingo") 

Ee break 

12 else: 

3 computer.getuserinput (int (value.split (",") [0]),int (value.split (",") [1])) 


14 print ("计算 机 :"+str (computer.printnum())) 
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上 面 的 代码 是 和 用 户 进行 交互 的 代码 ， 在 第 02 行 实例 化 一 个 Tcomputer 对 象 ， 第 05~14 行 则 
是 该 对 象 和 用 户 之 间 交 互 的 过 程 , 第 05 行 的 input 是 Python 内 第 函数 ,用 来 接收 用 户 输入 的 信息 ， 
computer 对 象 都 是 先 使 用 getuserinput 从 用 户 那里 获得 输入 的 信息 之 后 ， 再 使 用 printnum 方法 获得 
计算 机 猜 的 数 。 


6.6.4 异常 处 理 


是 不 是 完成 了 6.6.3 节 的 步骤 ,本 应 用 就 可 以 宣布 结束 了 ? 可 以 使 用 程序 试验 一 下 , 图 6.15 就 
是 试验 猜 数 程序 的 截屏 。 


== RESTART: F:/Tcomputerl.py ========: 


计算 机 : 准备 铺 数 ? 
外 兽 负 : 2 
类 :2 


入 (most recent call last): 
File “F:/Tcomputerl.py”, line 61, in <module > 
computer. getuserinput (int (value. split (”, *) [0]), ips (valye. split(”,") [1])) 
YalueError: invalid literal for int() with base Tr 
>>> 





6.15 ”试验 猜 数 程序 


从 图 6.15 中 可 以 看 到 完全 正确 的 输入 是 没有 问题 的 ， 计 算 机 准确 地 猜 出 了 数字 ， 但 是 当 第 二 
次 试验 的 时 候 ， 由 于 输入 的 提示 信息 不 正确 (没有 按照 两 个 数字 中 间 加 一 个 逗号 来 处 理 )， 程 序 就 
报错 退出 了 。 这 是 因为 在 分 析 设 计 和 编程 时 ， 完 全 没有 考虑 到 各 种 异常 情况 ,用 户 不 是 任何 时 候 都 
按照 预想 的 那样 操作 ， 可 能 会 输入 错误 的 信息 ， 比 如 把 字母 当 作 数 字 输 入 ,或 者 输入 的 提示 信息 不 
正确 ， 遇 到 这 种 情况 该 如 何 处 理 呢 ? 

本 程序 的 异常 主要 有 下 面 两 种 异常 信息 : 

(1) 用 户 输入 格式 错误 。 

在 本 应 用 中 ， 用 户 应 该 输入 ok、yes， 或 者 由 两 个 数字 中 间 带 一 个 逗号 的 格式 ， 输 入 其 他 格式 
应 该 抛 出 异常 来 提醒 用 户 。 

(2) 用 户 输入 数据 错误 。 

除了 用 户 输入 的 格式 错误 外 ， 用 户 给 的 提示 信息 本 身 可 能 是 错误 的 ， 在 这 种 情况 下 ， 根 本 无 
法 猜 出 正确 的 数字 。 因 此 在 处 理 异 常 时 ， 也 需要 把 这 个 异常 考虑 在 内 。 


6.6.5 “异常 类 定义 


异常 主要 处 理 两 种 不 同 的 错误 信息 : 用 户 格式 错误 和 用 户 数据 错误 。 定 义 本 程序 的 异常 处 理 
结构 的 时 候 ， 可 以 定义 一 个 异常 的 总 类 , 用 户 格式 错误 和 用 户 数据 错误 分 别 继承 于 总 类 。 总 类 的 定 
义 很 简单 ， 例 如 : 

class BusiError (Exception) : 


""" 程 序 异常 错误 信息 总 类 """ 


pass 
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用 户 格式 错误 ， 该 类 是 在 用 户 输入 的 格式 不 正确 的 时 候 抛 出 异常 ， 这 样 用 户 看 到 异常 提示 的 
信息 就 可 以 明白 输入 的 问题 。 它 的 实现 代码 如 下 : 
class UserInputError (BusiError) : 
"" "用户 格式 错误 : err_input 记录 错误 信息 ，out_info 记录 提示 信息 """ 
def _init (self, err input, out info): 
self.err input= err input 
self.out info=out info 
对 于 用 户 输入 格式 异常 ， 返 回 的 异常 信息 要 包括 用 户 输入 的 错误 格式 信息 和 正确 的 输入 格式 
说 明 。 因 此 在 定义 UserInputError (用 户 输入 格式 异常 ) 时 ,定义 了 两 个 属性 : err_ input 和 out_info， 
分 别 用 于 记录 错误 格式 信息 和 正确 的 输入 格式 说 明 。 
对 于 用 户 数据 错误 ， 如 果 用 户 输入 的 数据 不 正确 ， 计 算 机 程序 只 有 在 根据 用 户 输入 的 数据 做 
了 猜 数 之 后 ,发现 按照 用 户 提示 的 数据 找 不 到 任何 一 个 可 能 的 数字 的 时 候 抛 出 。 对 于 这 样 一 个 异常 ， 
因为 本 应 用 的 程序 是 每 次 都 根据 提示 数据 来 缩小 可 能 性 的 集合 (也 就 是 列表 possible list 的 数字 越 
来 越 少 的 过 程 》， 现 在 的 程序 设计 是 possible_list( 没 有 副本 ) ， 所 以 每 次 根据 用 户 提示 的 数据 ， 
对 每 一 步 possible_list 做 的 操作 都 不 能 恢复 。 该 异常 类 只 是 通知 程序 输入 数据 出 错 ， 本 局 游戏 要 从 
头 开始 ， 因 此 它 的 类 不 需要 增加 属性 ， 直 接 继承 父 类 就 可 以 ， 例 如 : 
class UserDataError (BusiError): 


"" "程序 异常 错误 信息 总 类 """ 


Pass 











6.6.6” 抛 出 和 捕获 异常 


定义 了 异常 类 ， 接 下 来 的 问题 就 是 在 什么 地 方 抛 出 和 捕获 异常 。 因 为 用 户 输入 格式 异常 和 用 
户 数据 异常 都 与 用 户 输入 有 关 , 所 以 可 以 在 与 用 户 进行 交互 的 部 分 抛 出 异常 和 处 理 , 即 在 这 部 分 代 
码 基础 上 增加 异常 处 理 的 机 制 。 以 下 是 增加 了 出 错 处 理 之 后 的 用 户 交互 代码 : 


01 if _name ==' main_': 


02 computer=TComputer () 

03 print "计算 机 :准备 猜 数 ? " 

04 while 1: 

05 value=raw_input ("人 :") 

06 if value !='ok' and value !='yes' and (not value[0].isdigit() and 

07 isdigit[1]!=',' and (not isdigit[2] .isdigit()) ): 

08 raise UserInputError (value, "输入 信息 应 该 为 ok、yes 及 两 个 数字 中 间 带 一 个 逗号 ") 
09 if value=="ok": 

10 computer.getuserinput (value, '') 

11 print "计算 机 :"+str(computer.printnum()) 

12 elif value=="yes": 

13 print "计算 机 :bingo" 

14 break 

15 else: 

16 computer.getuserinput (int (value.split (",") [0]),int (value.split(",") [1])) 
bil print "计算 机 :"+str(computer.printnum()) 


上 述 代 码 和 原 有 代码 不 同 之 处 ,就 是 在 06 和 08 行 对 用 户 输 入 的 value 做 格式 检查 ,如果 格式 
不 正确 ， 就 抛 出 UserInputError 异常 。 对 于 用 户 数据 不 正确 ， 因 为 需要 在 计算 机 猜 数 后 ， 看 到 可 能 
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性 为 0 时 才能 判断 出 异常 ， 所 以 需要 在 Tcomputer 类 实现 里 增加 。Tcomputer 类 中 的 printnum 方法 
是 用 来 猜 数 的 ， 可 以 在 printnum 方法 里 增加 异常 处 理 。 下 面 代码 是 printnum 方法 的 异常 处 理 。 


01 
02 
03 
04 
05 
06 


07 


08 
09 
10 
了 


def Printnum(self) : 


if self.has info=="ok': 
self.cur num=self.possible list[618] 
return self.cur num 
else: 
self.possible list=self. getpossible(self.possible list,self.cur num, 
self .has info) 
self.possible list=self. getinsible(self.possible list,self.cur num, 
self.pos info) 
if len(self.possible list)==0: 
raise UserDataError() 
self.cur num=self.possible list[0] 
return self.possible list[0] 


上 述 代 码 增加 异常 处 理 的 地 方 是 在 09 行 ， 通 过 对 计算 机 的 possible_list 列表 进行 判断 。 如 果 
该 列表 没有 元 素 ， 就 说 明 用 户 给 的 提示 有 问题 ， 因 此 要 抛 出 UserDataError 异常 。 

捕获 异常 与 抛 出 异常 不 一 样 ， 因 为 抛 出 异常 必须 在 异常 发 生 的 地 方 抛 出 ， 所 以 抛 出 点 很 分 散 ， 
就 像 四 处 撤 网 一 样 。 而 捕获 异常 则 不 需要 ,因为 异常 是 按照 方法 的 调用 顺序 进行 传递 的 ， 所 以 捕获 
异常 只 要 在 一 个 关口 位 置 就 可 以 捕获 所 有 异常 。 本 应 用 中 所 有 的 代码 都 是 从 用 户 交 互 那 块 代码 出 发 
的 , 只 要 在 那里 捕获 异常 , 就 可 以 把 所 有 需要 处 理 的 异常 一 网 打 尽 。 以 下 代码 是 本 应 用 异常 捕获 的 


处 理 ;: 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
名 
2 
13 
14 
15 
16 
Eh 
18 
二 8 
20 
21 
22 
23 
24 


if _name ==' main “，: 


computer=TComputer() 
print ("计算 机 :准备 猜 数 ? ") 
while 1: 
try: 
value= input ("人 :") 
if value !='ok' and value !='yes' and (not value[0] .isdigit() and 
isdigit[1]!=',' and (not isdigit[2].isdigit()) ): 
raise UserInputError (value, "输入 信息 应 该 为 ok、yes 及 两 个 数字 中 间 带 一 个 逗号 ") 
if value=="ok": 
computer.getuserinput (value, '') 
print ("计算 机 :"+str (computer.printnum())) 
elif value=="yes": 
Print ("计算 机 :bingo") 
break 
else: 
computer.getuserinput (int (value.split (",") [0]),int (value.split (",") [1])) 
print ("计算 机 :"+str (computer.printnum())) 
except UserInputError as inputerror: 
print ("你 输入 的 ，"+inputerror.err_input+" 不 正确 ") 
print ("你 应 该 输入 : "+inputerror .out_info) 
except UserDataError: 
print ("你 输入 的 提示 信息 是 错误 的 ! 请 重新 开始 游戏 ") 
computer=TComputer () 


上 述 代 码 是 增加 了 异常 处 理 的 用 户 交互 代码 ， 增 加 的 主要 代码 是 16~23 行 ， 负 责 对 异常 信息 
进行 处 理 。 对 于 UserInputError 异常 ， 在 捕获 了 该 异常 之 后 ， 将 错误 信息 和 提示 信息 打印 出 来 ， 而 
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UserDataError 异常 , 因为 需要 重新 开始 游戏 , 所 以 先 打印 重新 开始 信息 , 然 
对 象 ， 这 样 游戏 就 可 以 重新 开始 了 。 





重新 实例 化 Tcomputer 














第 / 章 


多 线程 





在 饭店 聚餐 场合 ， 多 个 人 同时 吃 一 道 菜 的 时 候 容易 发 生 争 抢 ， 比 如 上 了 一 道 好 菜 ， 两 个 人 同 
时 夹 这 个 菜 , 一 个 人 刚 伸 出 简 子 ,结果 伸 到 的 时 候 菜 已 经 被 夹 走 了 …… 怎 么 办 呢 ? 此 时 就 必须 等 一 
个 人 夹 完 一 口 菜 之 后 , 另外 一 个 人 再 夹 菜 ,也 就 是 说 资源 共享 就 会 发 生 冲突 争 抢 ， 这 就 是 多 线程 争 
抢 资 源 的 问题 。 

线程 是 一 个 单独 的 程序 流程 。 多 线程 是 指 一 个 程序 可 以 同时 运行 多 个 任务 ， 每 个 任务 由 一 个 
单独 的 线程 来 完成 。 如 果 程序 被 设置 为 多 线程 ， 可 以 提高 程序 运行 的 效率 和 处 理 速度 。 可 以 通过 控 
制 线程 来 控制 程序 的 运行 ,如 操作 线程 的 阻塞 、 同 步 等 。 本 章 将 向 读者 介绍 多 线程 机 制 及 如 何 进行 
多 线程 编程 。 


多 线程 的 概念 读者 开始 觉得 不 太 好 理解 ， 那 就 想 想 在 生活 中 当 资 源 共享 出 现 冲 突 的 时 候 怎 
么 办 呢 ? 除了 上 面 说 的 抢 菜 ， 还 有 公交 车 上 抢 座 ， 多 人 雨中 争 抢 出 租车 等 都 是 这 样 的 例子 。 





7.1 线程 的 概念 


多 个 线程 可 以 同时 在 一 个 程序 中 运行 ， 并 且 每 一 个 线程 完成 不 同 的 任务 。 

传统 的 程序 设计 语言 同一 时 刻 只 能 执行 单 任务 操作 ， 效 率 非常 低 ， 如 果 网 络 程序 在 接收 数据 
时 发 生 阻塞 (就 是 管道 被 堵 住 了 ) ， 只 能 等 到 程序 接收 数据 之 后 才能 继续 运行 。 随 着 Internet 的 飞 
速 发 展 ， 这 种 单 任务 运行 的 状况 越 来 越 不 被 接受 ， 如 果 网 络 接收 数据 阻塞 ， 后 台 服 务 程序 就 会 一 直 
处 于 等 待 状态 而 不 能 继续 任何 操作 ,这 种 阻塞 情况 经 常 发 生 ,， 这 时 的 CPU 资源 完全 处 于 闲置 状况 。 

多 线程 实现 后 台 服 务 程序 可 以 同时 处 理 多 个 任务 ， 并 不 发 生 阻塞 现象 。 多 线程 程序 设计 的 特 
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点 就 是 能 够 提高 程序 执行 效率 和 处 理 速度 。Python 程序 可 以 同时 并 行 运行 多 个 相对 独立 的 线程 。 
例如 ， 在 开发 一 个 Email 电邮 系统 时 ， 通 常 需要 创建 一 个 线程 接收 数据 ， 另 一 个 线程 发 送 数据 ， 既 
使 发 送 线程 在 接收 数据 时 被 阻塞 ， 接 受 数据 线程 仍然 可 以 运行 。 

线程 (Thread) 是 CPU 分 配 资源 的 基本 单位 。 当 一 个 程序 开始 运行 ， 这 个 程序 就 变 成 了 一 个 
进程 ， 而 一 个 进程 相当 于 一 个 或 多 个 线程 。 当 没有 多 线程 编程 时 ， 一 个 进程 也 是 一 个 主线 程 ， 当 有 
多 线程 编程 时 ， 一 个 进程 包括 多 个 线程 ( 含 主线 程 》。 使 用 线程 可 以 实现 程序 的 并 发 。 


7.2 ”创建 多 线程 


Python 3 实现 多 线程 的 是 threading 模块 ， 使 用 它 可 以 创建 多 线程 程序 ， 并 且 在 多 线程 间 进行 
同步 和 通信 。 因 为 是 模块 ， 使 用 前 必须 先导 入 : 

import threading 

Python 支持 两 种 创建 多 线程 的 方式 : 

@ ”通过 threading.Thread() 创 建 。 

@ 通过 继承 threading.Thread 类 创建 。 


7.2.1 ”通过 threading.Thread() 创 建 线程 


Thread() 的 语法 如 下 : 
threading.Thread(group=None, target=None, name=None, args=(), kwargs={}, *, daemon=None) 


@ ”group: 必须 为 None， 与 ThreadGroup 类 相关 ， 一 般 不 使 用 。 

e@ target: 线程 调用 的 对 象 ， 就 是 目标 函数 。 

@ name: 为 线程 起 个 名 字 。 默 认 是 Thread-x，x 是 序号 ， 由 1 开始 ， 第 一 个 创建 的 线程 名 字 就 
是 Thread-1。 

@ args: 为 目标 函数 传递 实 参 ， 元 组 。 

@ kwargs: 为 目标 函数 传递 关键 字 参 数 ， 字 典 。 

@ daemon: 用 来 设置 线程 是 否 随 主线 程 退出 而 退出 。 


参数 虽然 很 多 ， 但 实际 常用 的 就 是 target 和 args， 下 面 举例 : 


【示例 7-1】 

01 import threading # 导 入 模块 

02 

03 def test(xry) : # 定 义 测试 函数 
04 for i in range (xyy) : 

05 print (i) 


06 threadl = threading.Thread(name='tl1',target=test,args=(1,10)) 
07 thread2 = threading.Thread(name='t2',target=test,args=(11,20)) 
08 threadl.start() # 启 动 线程 1 





09 thread2.start() # 启 动 线程 2 

第 08~09 行 的 start() 函 数 用 来 启动 线程 。 

如 果 按 照 先 执行 完 一 段 代码 , 再 执行 完 一 段 代码 的 传统 形式 , 那 上 述 代码 应 该 是 先 输出 1~10， 
然后 输出 11~20， 但 是 运行 程序 后 ， 发 现 结果 如 图 7.1 所 示 。 


RSTART: D: /treedl, i Sm 





1 
>>> 20 





其 


图 7.1 果 


[ey 





这 是 因为 两 个 线程 会 并 发 运行 ， 所 以 结果 不 一 定 每 次 都 是 顺序 的 1~10, 这 是 根据 CPU 给 两 个 
线程 分 配 的 时 间 片 段 来 决定 的 。 读 者 可 以 多 运行 几 次 代码 ， 可 以 看 到 每 次 结果 都 不 同 。 





7.2.2 ”通过 继承 threading.Thread 类 创建 线程 


threading.Thread 是 一 个 类 ， 可 以 继承 它 。 下 面 使 用 单 继 承 的 方式 创建 一 个 属于 自己 的 类 : 
【示例 7-2】 


01 import threading 


02 
03 class mythread (threading.Thread) : # 继 承 threading.Thread 类 
04 def run(self) : 

05 for i in range(1,10): 

06 print (i) 

07 


08 threadl = mythread(); 
09 thread2 = mythread(); 
10 threadl.start() 
11 thread2.start() 
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第 03 行 自 定义 一 个 类 继承 自 threading.Thread， 然 后 重 写 父 类 的 run 方法 ， 线 程 启动 时 执行 


start()) 会 自动 执行 该 方法 。 如 果 把 第 10 行 和 第 11 行 的 start 换 为 run， 会 发 现 run 仅仅 是 被 当 作 
一 个 普通 的 函数 使 用 。 只 有 在 线程 start 时 ， 它 才 是 多 线程 的 一 种 调用 函数 。 


Python 的 线程 没有 优先 级 ， 不 能 被 销毁 、 停 止 、 挂 起 ， 也 没有 恢复 、 中 断 ， 这 与 其 他 基础 
开发 语言 不 同 。 





7.3 主线 程 


在 Python 中 ， 主 线程 是 第 一 个 启动 的 线程 。 我 们 需要 了 解 两 个 概念 : 
@” 父 线程 如 果 线程 A 中 启动 了 一 个 线程 B，A 就 是 B 的 父 线程 。 
ee 子 线 程 : B 就 是 A 的 子 线程 。 


创建 线程 时 有 一 个 daemon 属性 ， 用 它 来 判断 主线 程 。 当 daemon 设置 False 时 ， 线 程 不 会 随 





主线 程 退 出 而 退出 ， 主 线程 会 一 直 等 着 子 线程 执行 完 ， 当 daemon 设置 为 True 时 ， 主 线程 结束 ， 
其 他 子 线程 就 会 被 强制 结束 。 


使 用 daemon 属性 有 几 个 注意 事项 : 
daemon 属性 必须 在 start() 之 前 设置 ， 否 则 会 引发 RuntimeError 异常 。 
每 个 线程 都 有 daemon 属性 ， 可 以 显 式 设置 也 可 以 不 设置 ， 不 设置 则 取 默 认 值 None。 
如 果子 子 线程 不 设置 daemon 属性 , 就 取 当 前 线程 的 daemon 来 设置 它 。 子 子 线程 继承 子 线程 
的 daemon 值 ， 作 用 和 设置 None 一 样 。 
@ 从 主线 程 创建 的 所 有 线程 不 设置 daemon 属性 ， 则 默认 都 是 daemon=False。 


为 了 演示 主线 程 的 例子 ， 我 们 需要 学 习 


-个 time 模块 中 的 sleep() 函 数 ， 它 用 于 推迟 线程 的 执 





， 默 认 时 间 是 秒 。 下 面 引入 time 模块 演示 这 个 例子 。 


【示例 7-3】 
01 import time 
02 import threading 


03 
04 def test(): 

05 time. sleep (10) # 等 待 10 毫秒 
06 for i in range(10) : 

07 print (i) 

08 


09 threadl= threading.Thread (target=test, daemon=False) 
10 threadl.start() 


12 ”print (' 主 线程 完成 了 ') 
上 述 代 码 的 执行 结果 如 图 7.3 所 示 。 
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图 7.3 ”推迟 线程 的 执行 





当主 线程 完毕 时 ， 子 线程 依然 会 执行 ， 就 是 输出 0~9。 如 果 将 第 09 行 的 daemon=False 改 为 
daemon=True， 则 程序 应 该 只 输出 “主线 程 完成 了 ”这 一 句 〈 主 线程 完成 后 会 强制 子 线程 退出 ) ， 
但 实际 效果 却 与 上 图 一 致 ， 这 又 是 为 什么 呢 ? 

原来 这 样 的 测试 并 不 适用 于 IDLE 环境 中 的 交互 模式 或 脚本 运行 模式 , 因为 在 该 环境 中 的 主线 
程 只 有 在 退出 Python IDLE 时 才 终 止 , 所 以 本 例 要 换 一 种 测试 方法 来 测试 daemon=True 的 情况 。 将 
上 述 代码 保存 为 thread1.py， 然 后 打开 命令 行 ， 执 行 : 

Python threadl.py 


结果 如 图 7.4 所 示 ， 主 线程 退出 后 ， 子 线程 也 跟着 退出 了 ， 不 会 输出 0~9。 








| 国 迁 径 C:\Windows\system32\cmd.exe 一 口 x 


加 
Wi 





图 7.4 主线 程 和 子 线程 都 退出 


7.4 ”阻塞 线程 


多 线程 还 提供 了 一 个 方法 join, 简 单 来 说 这 是 一 个 阻塞 线程 ,一 个 线程 中 调用 男 一 个 线程 的 join 
方法 ， 调 用 者 将 被 阻塞 ， 直 到 被 调用 线程 终止 。 其 语法 是 : 

join (timeout=None) 

timeout 参数 指定 调用 者 等 待 多 久 ， 没有 设置 时 ， 就 一 直 等 待 被 调用 线程 结束 。 其 中 ， 一 个 线 
程 可 以 被 join 多 次 。 下 面 是 一 个 例子 : 

【示例 7-4】 


01 import time 
02 import threading 
03 
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子 线 
0-9。 


04 def test(): 


05 time. sleep (5) 

06 for i in range(10) : 
07 print (i) 

08 


09 threadl= threading.Thread (target=test) 

10 threadl.start() 

11 ”print (' 主 线程 完成 了 ') 

前 面 在 学 习 daemon 属性 时 读者 已 经 知道 ， 当 它 的 值 是 默认 或 设置 为 False 时 ， 主 线程 退出 ， 
程 依然 执行 。 因 为 子 线程 当时 设置 了 sleep0， 所 以 先 执行 主线 程 的 print 输出 ， 然 后 才 会 输出 





此 时 ， 如 果 在 第 10 行 后 面 添加 join 方法 : 


threadl .join () 


输出 时 ， 主 线程 就 会 等 待 输出 完 0~9 后 再 执行 自己 的 print 输出 ， 结 果 如 图 7.5 所 示 。 





图 7.5 join 方法 应 用 
7.5 判断 线程 是 否 是 活动 的 


除了 前 面 介绍 的 join0， 其 实 threading.Thread 类 还 提供 了 很 多 方法 ， 可 参见 表 7.1。 


表 7.1 threading.Thread 类 的 方法 





名 称 说 明 


























run() 用 以 表示 线程 活动 的 方法 

start) 启动 线程 | 
ig 等 待 至 线程 中 目 | 
isAlive0 返回 线程 是 否 活动 的 | 
BetName0 返回 线程 名 称 | 
setName() 设置 线程 名 称 | 

run()、start()、join0 前 面 都 介绍 过 ， 这 里 举例 说 明 其 他 3 个 方法 : 
【示例 7-5】 


01 import time 
02 import threading 


04 def test(): 
05 time.sleep (5) 
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06 for i in range(10) : 
07 print (i) 
08 


09 threadl= threading.Thread (target=test) 

10 ”print ('1 .当前 线程 是 否 是 活动 的 : ' ,thread1 .isAlive()) 
11 threadl.start() 

12 ”print ('2. 当 前 线程 是 否 是 活动 的 : ' ,thread1 .isAlive()) 
13 ”print (' 当 前 线程 ' ,thread1 .getName () ) 

14 threadl.join() 

15 

16 ”print (' 线 程 完毕 ') 


第 10 行 ， 因为 还 没有 使 用 start() 启 动 线程 ， 所 以 当前 线程 不 是 活动 状态 。 第 12 行 就 输出 True 
了 。 第 13 行 获取 线程 的 名 称 , 因为 创建 线程 时 没有 使 用 name 属性 ,所 以 线程 的 默认 名 字 是 Thread-x 
这 种 形式 。 本 例 结果 如 图 7.6 所 示 。 








图 7.6 线程 的 默认 名 字 


在 代码 运行 时 期 ， 也 可 以 使 用 setName() 更 改线 程 的 名 字 ， 下 面 修改 代码 : 
【示例 7-6】 


01 import time 
02 import threading 


03 

04 def test(): 

05 time.sleep(5) 

06 for i in range(10) : 
07 print (1) 

08 


09 threadl= threading.Thread (target=test) 

10 ”print ('1 .当前 线程 是 否 是 活动 的 : ' ,thread1 .isAlive()) 
11 threadl.start() 

12 ”print ('2. 当 前 线程 是 否 是 活动 的 : ',thread1.isalive()) 
13 threadl.setName("thread1") 

14 ”print (' 当 前 线程 ', thread1 .getName () ) 

15 threadl.join() 

16 

17 ”print (' 线 程 完毕 ') 


第 13 行 设置 线程 名 称 为 thread1， 执 行 结果 如 图 7.7 所 示 。 
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7.7 修改 线程 的 名 字 


7.6 ”线程 同步 


生活 中 经 常会 出 现 共享 资源 冲突 的 问题 ， 例 如 在 公共 汽车 上 只 有 一 个 空 座 ， 两 个 人 同时 看 到 
都 想 坐 时 ， 冲 突 就 产生 了 。 

Python 应 用 程序 中 的 多 线程 可 以 共享 资源 ， 如 文件 、 数 据 库 、 内 存 等 。 当 线程 以 并 发 模式 访 
问 共享 数据 时 ， 共 享 数据 可 能 会 发 生 冲 突 。Python 引入 线程 同步 的 概念 ， 以 实现 共享 数据 的 一 至 
性 。 线 程 同 步 机 制 让 多 个 线程 有 序 地 访问 共享 资源 ， 而 不 是 同时 操作 共享 资源 。 


7.6.1 同步 的 概念 


在 线程 异步 模式 的 情况 下 ， 同 一 时 刻 有 一 个 线程 在 修改 共享 数据 ， 另 一 个 线程 在 读 取 共 享 数 
据 ， 当 修改 共享 数据 的 线程 没有 处 理 完毕 , 读 取 数 据 的 线程 肯定 会 得 到 错误 的 结果 。 如 果 采 用 多 线 
程 的 同步 控制 机 制 ， 当 处 理 共享 数据 的 线程 完成 处 理 数 据 之 后 ， 读 取 线 程 就 读 取 数据 。 

通过 车 站 出 售 车 票 的 例子 ， 我 们 来 理解 线程 同步 的 概念 。 例 如 ， 武 汉 到 北京 的 车 票 ， 在 武昌 、 
汉口 、 武 汉 及 市 内 车 票 代 理 点 都 可 以 出 售 武 汉 到 北京 的 车 票 ， 每 一 个 站 点 将 其 看 成 一 个 线程 ， 设 两 
个 站 点 ,线程 Threadl 和 线程 Thread2 都 可 以 出 售 火车 票 ， 但 是 出 售 过 程 中 会 出 现 数据 与 时 间 信 息 
不 一 致 的 情况 。 线 程 Thread1 查询 系统 数据 库 ， 发 现 某 张 火车 票 Ticket 可 以 出 售 ， 准 备 出 售 此 票 ， 
同时 线程 Thread2 也 在 数据 库 中 查询 存 票 ， 发 现 上 面 的 火车 票 Ticket 可 以 出 售 ， 线 程 Thread2 将 这 
张 火车 票 Ticket 售 出 ， 当 线程 Threadl 执行 时 ， 则 卖 出 同样 的 火车 票 Ticket。 这 样 就 出 现 了 一 张 车 

票 卖 出 两 次 的 错误 (以 前 铁路 系统 确实 发 生 过 这 类 错误 ) ,这 是 一 个 典型 的 由 于 数据 不 同步 而 导致 

的 错误 。 

基本 每 种 语言 都 会 提供 方案 来 解决 这 种 因 同 步 导致 的 错误 ， 常 用 的 方案 就 是 “ 锁 ”， 简 单 来 
说 ， 就 是 锁 住 线程 ， 只 允许 一 个 线程 操作 ， 其 他 线程 排队 等 待 ， 待 当前 线程 操作 完毕 后 ， 再 按 排队 
顺序 一 个 一 个 来 。 
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7.6.2 Python 中 的 锁 


Python 的 threading 模块 提供 了 RLock 锁 〈 可 重 入 锁 ) 解决 方案 。 在 某 一 时 间 只 能 让 一 个 线程 
操作 的 语句 放 到 RLock 的 acquire 方 法 和 release 方 法 之 间 , 即 acquire 相 当 于 给 RLock 上 锁 , 而 release 
相当 于 解锁 。 

下 面 演 示 一 段 代码 : 


【示例 7-7】 

01 import threading 

02 

03 class mythread (threading.Thread) : 

04 def runl(self): 

05 global x # 声 明 一 个 全 局 变量 
06 lock.acquire () # 上 锁 

07 x += 10 

08 print('%s:%d'%(self.name,x)) 

09 lock.release () # 解 锁 

10 

11 x=0 # 设 置 全 局 变量 初始 值 
12 lock = threading.RLock() # 创 建 可 重 入 锁 


13 1listl = [] 
14 for i in range(5) : 


15 listl.append(mythread()) # 创 建 5 个 线程 ， 并 把 它们 放 到 一 个 列表 中 
16 for i in listl: 
17 i.start () # 开 启 列表 中 的 所 有 线程 


代码 首先 定义 了 一 个 类 mythread， 继 承 自 threading.Thread， 然 后 重 写 父 类 的 run() 方 法 ， 当 线 
程 启动 时 自动 执行 该 方法 。 第 08 行 输出 线程 名 称 和 x 的 值 。x 是 全 局 变量 ， 用 global 定义 ， 这 个 
变量 的 作用 域 是 整个 代码 执行 期 间 ， 第 11 行 设 置 x 的 初始 值 。 

第 14~15 行使 用 for...in 语句 创建 5 个 线程 ， 第 17 行 启动 这 5 个 线程 ， 它 们 都 会 设置 x 的 值 
并 输出 ， 为 了 保证 输出 的 正确 ( 读 取 x 的 值 时 不 会 产生 错误 ) ， 使 用 lock.acquire() 和 lock.release() 
将 设置 x 值 和 读 取 x 值 的 语句 锁 起 来 ， 保 证 了 线程 的 同步 ， 也 就 是 数据 的 正确 性 。 本 例 结果 如 图 
7.8 所 示 。 








图 7.8 线程 的 同步 


7.6.3 ”Python 中 的 条 件 锁 


Python 的 threading 提供 了 一 个 方法 Condition()， 一 般 称 为 Python 中 的 条 件 变量 。 简 单 地 说 ， 
这 个 条 件 变量 必须 与 一 个 锁 关 联 ， 故 也 可 以 称 为 条 件 锁 ， 它 一 般 用 于 比较 复杂 的 同步 。 例 如 ， 一 个 
线程 在 上 锁 后 、 解 锁 前 ， 因 为 某 一 条 件 一 直 阻 寨 着 ， 那 么 锁 就 一 直 解 不 开 ， 此 时 其 他 线程 也 就 因 
为 一 直 获 取 不 了 锁 而 被 迫 阻塞 着 ， 这 就 可 能 导致 “ 死 锁 ”现象 。 这 种 情况 下 ， 变 量 锁 可 以 让 该 线 
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程 先 解锁 ， 然后 阻塞 ， 等 待 条 件 满足 了 ， 再 重新 唤醒 并 获取 锁 (上 锁 )。 这 样 就 不 会 因为 一 个 线程 
有 问题 而 影响 其 他 线程 了 。 变 量 锁 的 使 用 方法 一 般 是 : 


con = threading.Condition() 


“ 死 锁 ” 是 指 两 个 或 两 个 以 上 的 线程 或 进程 在 执行 程序 的 过 程 中 ， 因 和 争夺 资源 而 相互 等 待 的 
一 种 现象 。 





条 件 锁 常用 的 方法 参见 表 7.2。 


表 7.2 条 件 锁 常用 的 方法 











acquire([timeout]) 调用 关联 锁 的 相应 方法 
使 线程 进入 Condition 的 等 待 池 等 待 通知 并 释放 锁 。 使 用 前 线程 必须 已 获得 锁定 ， 否 则 
将 抛 出 异常 
notify() 从 等 待 池 挑 选 一 个 线程 并 通知 ， 收 到 通知 的 线程 将 自动 调用 acquire0 尝 试 获得 锁定 〈 进 
入 锁定 池 ), 其 他 线程 仍然 在 等 待 池 中 。 调 用 这 个 方法 不 会 释放 锁定 。 使 用 前 线程 必须 已 
获得 锁定 ， 否 则 将 抛 出 异常 
notifyAllO 通知 等 待 池 中 所 有 的 线程 ， 这 些 线程 都 将 进入 锁定 池 尝 试 获得 锁定 。 调 用 这 个 方法 不 会 
释放 锁定 。 使 用 前 线程 必须 已 获得 锁定 ， 否 则 将 抛 出 异常 


















条 件 锁 的 原理 与 设计 模式 中 的 生产 者 /消费 者 (Producer/Consumer) 模式 类 似 。 读 者 了 解 了 
这 个 模式 ， 也 就 了 解 了 条 件 锁 。 顾 名 思 义 ， 生 产 者 是 一 段 用 于 生产 的 内 容 ， 生 产 的 成 果 供 消费 者 
消费 ， 这 中 间 涉 及 一 个 缓存 池 (用 来 存储 数据 ) ， 一 般 称 为 仓库 。 生 产 者 、 仓 库 、 消 费 者 的 关系 如 
下 : 
生产 者 仅仅 在 仓库 未 满 的 时 候 生 产 ， 仓 满 则 停止 生产 。 
消费 者 仅仅 在 仓库 有 产品 时 候 才能 消费 ， 仓 空 则 等 待 。 
当 消费 者 发 现 仓库 没有 产品 可 消费 的 时 候 会 通知 生产 者 生产 。 
生产 者 在 生产 出 可 消费 产品 的 时 候 ， 应 该 通知 等 待 的 消费 者 去 消费 。 


下 面 我 们 设计 一 个 产品 ， 有 一 个 生产 者 类 用 来 生产 产品 (产品 数量 +1)， 当 产品 数量 到 达 10 
停止 生产 。 还 有 一 个 消费 者 类 用 来 消费 产品 《产品 数量 -1) 。 
【示例 7-8】 


01 import threading 


时 


02 import time 


04 Pproducts = [] 
05 condition = threading.BarrierCondition() 


06 

07 class Consumer (threading.Thread): 
08 def consume (self): 

09 global condition 


10 global products 
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上 述 代 码 用 time.sleep0 控 制 生产 和 消费 的 时 间 ，1 秒 生产 一 个 产品 ，4 秒 消费 一 个 产品 。 当 产 
品 生产 的 数量 达到 我 们 设计 的 上 限 10 时 ， 就 会 停止 生产 ， 并 调用 wait 等 待 线程 通知 ， 可 消费 的 产 
品 数 量 为 0 时 执行 同样 的 操作 。 

本 例 部 分 结果 如 下 : 
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第 8 章 


模块 和 包 


我 们 在 第 1 童 中 就 提 到 过 ，Python 因为 其 众多 的 模块 数量 ， 才 发 展 得 如 此 之 快 ， 甚 至 几乎 包 
揽 所 有 的 应 用 方向 。Python 本 身 提供 的 模块 有 很 多 ， 有 文本 类 、 数 据 结构 类 、 日 期 时 间 类 、 科 学 
计算 类 、 文 件 系统 类 、 网 络 类 等 。 本 章 将 从 模块 和 包 的 概念 入 手 ， 让 读者 了 解 Python 中 引入 模块 
和 包 的 方法 。 


8.1 模 块 


随 着 程序 的 变 大 及 代码 的 增多 ， 为 了 更 好 地 维护 程序 ， 一 般 会 把 代码 进行 分 类 ， 分 别 放 在 不 
同 的 文件 中 。 公 共 类 、 函 数 都 可 以 放 在 独立 的 文件 中 ， 这 样 其 他 多 个 程序 都 可 以 使 用 ， 而 不 必 把 这 
些 公共 性 的 类 、 函 数 等 在 每 个 程序 中 复制 一 份 ， 这 样 独立 的 文件 就 叫 作 模块 ， 它 们 的 扩展 名 是 .py。 
本 节 介绍 模块 的 使 用 。 


8.1.1 标准 库 中 的 模块 


当 我 们 安装 好 Python 后 ， 默 认 其 实 安装 了 非常 多 的 模块 ， 这 些 模块 称 为 Python 的 标准 库 。 简 
单 来 说 ， 标 准 库 就 是 那些 默认 安装 上 的 模块 ， 都 有 哪些 模块 呢 ? 参见 表 8.1 所 示 。 


表 8.1 标准 库 中 的 模块 

















名 称 说 明 
time、datetime 模块 时 间 相 关 
random 模块 随机 数 

os 模块 与 操作 系统 交互 
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sys 模块 对 Python 解释 器 的 相关 操作 
shelve 模块 返回 类 似 字典 的 对 象 ， 可 读 可 写 
shutil 模块 高 级 的 文件 、 文 件 夹 、 压 缩 包 处 理 
xml 模块 针对 XML 文件 格式 的 操作 
configparser 模块 解析 配置 文件 〈 支 持 读 取 )， 如 XXX.ini 
hashlib、hmac 模块 用 于 加 密 相关 的 操作 
zipfile、tarfile 模块 用 于 压缩 和 解压 相关 的 操作 
json、pickle 基本 的 数据 序列 和 反 序列 化 
logging 记录 日 志 
math 数学 计算 








每 个 模块 如 何 使 用 ， 本 书 不 再 给 出 具体 的 案例 ， 这 里 也 是 引出 这 些 模块 ， 让 读者 知道 如 果 有 
某 一 个 需求 ， 我 们 可 以 使 用 什么 模块 。 比 如 ， 如 果 要 操作 json 格式 的 数据 ， 可 以 导入 json 模块 。 


8.1.2 查看 模块 的 代码 


模块 默认 安装 在 “C:\VUsers\ 用 户 001\AppData\Local\Programs\Python \Python36\Lib ”文件 夹 下 ， 
如 图 8.1 所 示 。 























Programs 一 二 让 一 
Common 
_pycache_ 
Python asyncio 
hes collections 
Dus concurrent 
Doc i 
incude ei 
tib dbm 
_pycache_ distutils 
asyncio email 文 
collections encodings ni XH 
concurrent ee 忻 交 
html 
ctypes Rs 
7 idlelib 
importib 
distutils 本 
email lib2to3 
encodings logging 天 
ensurepip msilib A 
html multiprocessing i a 
http pydoc_data 
idlaib site-packages 
ee sqlite3 
importib 2 
图 8.1 默认 安装 的 模块 
打开 某 个 模块 的 文件 夹 ， 就 能 看 到 它 的 具体 内 容 ， 比 如 打开 json 文件 夹 ， 如 图 8.2 所 示 。 
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名 称 修改 日 期 类 型 大 小 

BB _pycache_ 2018/1/17 15:15 

司 _int_py 2 15 KB 
司 decoderpy 13 KB 
司 encoder.py 17 KB 
司 :cannerpy 3 KB 
司 toolpy 2017/6/17 19:57 2KB 








图 8.2 模块 的 具体 内 容 


1. 使 用 help 查看 模块 


如 果 这 样 寻找 json 的 _init .py， 就 显得 太 麻烦 了 ， 还 可 以 在 解释 器 中 使 用 help(' 模 块 名 7) 方 
法 查看 json 模块 的 各 种 说 明 ， 结 果 如 图 8.3 所 示 。 


help (‘json’) 





EEC 一 下] 
eT on PScRagg J5om 


NAME 
json 


DESCRIPTION 
JSON (JavaScript Object Notation) http://json.org> is a subset of 
JavaScript syntax (ECMA-262 3rd edition) used as a lightweight data 
interchange fornat. 


nod: json” exposes an API faniliar to users of the standard library 
nod: "aarshal and -nod; pickle” nodules. It is derived from a 
version of the externally maintained sinplejson library. 


Encoding basic Python object hierarchies: 


>>》import json 

32> json. dunps(['f00", Tbar': ("baz’, None, 1.0, 2)}]) 
“ ["f00”, {bar”: (“baz”, null, 1.0, 2]}]" 

32> print (json. dunps("\“fo0\bar”)) 

“\“fo0\bar 

32> print (json. dumps(' \u1234" )) 

“\u1234” 

>>> print (json. dunps(" \\”)) 

2 

> print (json. dunps({“c”; 0, "b”; 0, “a”: 0}, sort_keys=True)) 
{ed, be 0: 0 

>>》from io inport StringIO 

>>>》 io = StringIO() 

>>》json dump tf streaning API'], i0) 


>>>》 io.getvalue() 
”["streaming API ]” 





Conpact encodini 


8.3 ”使 用 help 查看 模块 


图 中 显示 很 多 内 容 ， 截 图 只 是 显示 了 一 小 部 分 ， 有 几 点 需要 特别 说 明 : 


Db 


NAME: 模块 的 名 字 ， 可 以 由 全 局 变量 _name_ 得 到 。 
DESCRIPTION: 模块 的 描述 和 使 用 的 演示 。 
FUNCTIONS: 模块 支持 的 方法 。 

DATA: 数据 结构 形式 。 

VERSION: 模块 的 版 本 号 。 

AUTHOR: 模块 的 作者 。 

FILE: 该 模块 在 系统 中 的 文件 位 置 。 


使 用 help 查看 所 有 模块 


在 help 方法 中 指定 具体 的 模块 为 需要 查看 的 模块 , 如 果 不 指定 模块 而 是 写 modules, 则 是 查看 
当前 安装 的 所 有 模块 ， 结 果 如 图 8.4 所 示 。 


help (‘modules’) 
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>>> help( modules’) 

Please wait a moment while I gather a list of all available modules... 
| future autocomplete_w hyperparser runpy 
nain__ autoexpand idle runscript 
-ast base64 idle_test sched 
-asyncio bdb idlelib scrolledlist 
bisect binascii idna search 
blake2 binhex imaplib searchbase 
bootlocale bisect imghdr searchengine 
-bz2 browser imp secrets 
-codecs bs4 importlib select 
codecs_cn bson inspect selectors 
-codecs-hk builtins io setuptools 
-codecs-iso2022 bz2 iomenu shelve 
codecs-jp cProfile ipaddress shlex 
codecs-kr calendar itertools shutil 
codecs_tw calltip_w json signal 
-collections calltips keyword site 
-collections_abc ~ certifi lib2to3 sntpd 
compat_pickle cgi linecache smtplib 
conpression cgitb locale sndhdr 








图 8.4 使 用 help 查看 所 有 模块 


在 程序 中 使 用 其 他 模块 ， 需 要 使 用 import 语句 导入 ， 本 节 介绍 该 语句 。 


8.2.1 最 简单 的 导入 


前 面 已 经 知道 有 很 多 默认 的 模块 ， 要 导入 这 些 模 块 特别 简单 ， 只 需要 一 行 : 
import 模块 名 
比如 我 们 要 





入 time 模块 ， 可 以 先 用 help 看 看 它 有 什么 方法 ， 如 图 8.5 所 示 。 


FUNCTIONS 
asctime(...) 
asctime([tuple]) -> string 


Convert a tine tuple to a string, e.g. 'Sat Jun 06 16:26:11 1998". 
When the tine tuple is not present, current tine as returned by localtin| 


is used. 


clock(...) 
clock() -> floating point number 


Return the CPU time or real time since the start of the process or since| 
the first call to clock(). This has as much precision as the systen 
records. 


ctine(...) 
ctime (seconds) -> string 


Convert a tine in seconds since the Epoch to a string in local tine. 
This is equivalent to asctine(localtine(seconds)). When the tine tuple i 


not present, current time as returned by localtine() is used. 


get_clock_info(...) 
get_clock_info(nane: str) -> dict 


Get information of the specified clock. 


gntine(...) 
gntine([seconds]) -> (tn_year, tn_non, tn_nday, tn_hour, tn_nin, 


图 8.5 查看 time 模块 
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time 模块 有 clock、gmtime 等 方法 ， 我 们 可 以 根据 说 明了 解 每 个 方法 的 返回 值 或 参数 。 
1. 在 IDEL 中 导入 

下 面 演示 导入 模块 并 使 用 它 的 某 个 方法 : 

【示例 8-1】 


01 import time 


03 if time.gmtime () .tm year == 2018: 
04 for i in range(1,12): 
05 print (str(time.gmtime () .tm year) +' 年 '+str (i)+' 月 好 ') 


首先 导入 time 模块 , 然后 调用 time.gmtime0 方 法 , 从 help 的 模块 说 明 中 知道 该 方法 返回 元 组 ， 
可 以 使 用 time.gmtime().tm_year 获取 具体 的 年 份 。 本 例 结果 为 : 


2018 年 1 月 好 
2018 年 2 月 好 
2018 年 3 月 好 
2018 年 4 月 好 
2018 年 5 月 好 
2018 年 6 月 好 
2018 年 7 月 好 
2018 年 8 月 好 
2018 年 9 月 好 
2018 年 10 月 好 
2018 年 11 月 好 


2. 在 解释 器 中 导入 
也 可 以 直接 在 解释 器 中 导入 模块 ， 比 如 还 是 导入 time 模块 ， 则 导入 和 使 用 的 结果 如 图 8.6 所 


示 。 


>>> import time 
>>> print (time. gmtime(). tm year) 








图 8.6 导入 time 模块 
此 时 time 模块 一 直 可 以 使 用 ， 直 到 关闭 解释 器 。 





一 个 模块 只 会 被 导入 一 次 ， 不 管 执行 了 多 少 次 import。 


8.2.2 from...import 语句 

from...import 语句 允许 开发 人 员 只 导入 模块 的 一 部 分 , 如 导入 某 个 具体 的 方法 、 某 个 变量 。 其 
语法 形式 为 : 

from 模块 import 方法 (变量 ) 名 1， 方 法 (变量 ) 名 2.. 

还 是 time 模块 的 例子 ， 现 在 只 导入 gmtime 这 个 方法 : 
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【示例 8-2】 

01 from time import gmtime 

02 

03 if gmtime() .tm year == 2018: 

04 for i in range(1,12): 

05 print (str(gmtime () .tm_year) +' 年 '+str(i)+' 月 好 ') 


对 比 前 面 的 代码 ， 相 信 读 者 已 经 很 清楚 地 发 现 了 区 别 ， 当 直接 导入 某 个 函数 时 ， 不 需要 再 指 
定 这 个 函数 的 模块 名 称 ， 比 如 之 前 用 time.gmtime0， 而 现在 直接 用 gmtime0 就 可 以 了 。 

使 用 from...import 语句 的 好 处 是 ， 不 需要 把 模块 的 所 有 内 容 都 导入 到 当前 的 工作 区 域 中 ， 这 
极 大 地 提高 了 空间 的 使 用 效率 。 


8.2.3 from...import * 语 句 


上 面 的 from 语句 只 导入 模块 的 部 分 ， 如 果 import 后 面 加 了 * 符 号 ， 则 还 是 会 导入 全 部 模块 。 
与 import 简单 导入 语句 的 区 别 是 : 这 种 导入 方式 不 会 导入 以 下 画 线 (_) 开头 的 名 称 ， 并 不 推荐 使 
用 , 因为 它 会 引入 一 系列 未 知 的 名 称 到 解释 器 中 , 所 以 很 可 能 隐藏 我 们 已 经 定义 的 一 些 数据 。 不 过 ， 
在 解释 中 这 样 用 也 是 可 以 的 ， 会 少 写 一 些 代码 。 

from...import * 语 句 的 使 用 语法 如 下 : 


from 模块 import * 


还 是 用 time 模块 来 举例 : 

【示例 8-3】 

01 from time import * 

02 

03 if gmtime().tm year == 2018: 

04 for i in range(1,12) : 

05 print (str(gmtime () .tm_year) +' 年 '+str(i)+' 月 好 ') 


这 个 比较 简单 ， 我 们 不 再 给 出 代码 解析 ， 输 出 结果 也 和 前 面 一 致 。 


8.2.4 导入 自 定义 的 模块 


前 面 都 是 导入 标准 库 的 模块 ， 如 果 是 开发 人 员 自 定义 的 内 容 ， 那 是 否 也 遵循 前 面 介绍 的 导入 
规范 呢 ? 下 面 我 们 写 一 个 三 角形 周 长 函 数 ， 然 后 保存 为 testfun.py。 


【示例 8-4】 

01 import math 

02 

03 def square(x): 

04 return x*x 

05 def distance(xl,y1,x2,y2): 

06 L=math. sqrt (square (x1-x2)+square (yY1-Y2)) 
07 return L 


08 def isTriangle (xl,yl,x2,y2,x3,y3): 
09 flag=((x1-x2)* (7Y3-Y2) - (x3-x2) * (Y1-Y2) ) !=0 
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10 return flag 


在 IDEL 解释 器 中 ， 使 用 help 查看 自 定义 的 这 个 testfun 模块 ， 结 果 如 图 8.7 所 示 。 


>> helpCtestfun ) 
[Help on module testfun 





testfun 


[EUNCTIONS 
distance (zx1， 了 1，x2，72) 


isTriangle(xl，y1，x2，y2，x3，73) 
Square (x) 


FILE 
d: \testfun. py 








>>>1 





8.7 使 用 help 查看 testfun 模块 
现在 在 代码 中 导入 这 个 测试 函数 : 
import testfun 


print(testfun.square (5) ) #25 


导入 自 定义 的 模块 与 导入 标准 库 的 模块 并 没有 区 别 。 
8.3 包 


创建 许多 模块 后 ， 可 能 希望 将 某 些 功能 相近 的 文件 组 织 在 同一 文件 夹 下 ， 这 里 就 需要 运用 包 
的 概念 了 。 本 节 介 绍 包 的 概念 和 用 法 。 


8.3.1 包 和 模块 的 区 别 


包 与 文件 夹 对 应 。 使 用 包 的 方式 与 使 用 模块 的 方式 类 似 ， 唯 一 需要 注意 的 是 ， 当 文件 夹 当 作 
包 使 用 时 ， 文 件 夹 需要 包含 _init_.py 文件 ， 主 要 是 为 了 避免 将 文件 夹 名 当 作 普 通 的 字符 串 。 
_ init_.py 的 内 容 可 以 为 空 , 一 般 用 来 进行 包 的 某 些 初始 化 工作 或 设置 _all_ 值 ， all_ 是 在 from 
包 名 称 import * 语 句 使 用 的 ， 全 部 导出 定义 过 的 模块 。 
包 中 的 模块 有 很 多 ， 可 直接 导入 包 ， 也 可 以 导入 包 中 的 模块 。 
(1) 导入 包 中 的 模块 
import 包 名 称 .模块 名 称 
(2) 使 用 ffom...import 形式 
from 包 名 称 import 模块 名 称 
(3) 使 用 from…import * 形 式 


from 包 名 称 import * 
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(4) 导入 包 中 模块 的 指定 方法 或 变量 
from 包 名 称 .模块 名 称 import 方法 名 称 


8.3.2 包 的 结构 


前 面 提 到 包 对 应 的 文件 夹 需 要 包含 _init_.py 文件 , 除了 这 个 文件 , 还 有 哪些 呢 ? 这 里 给 出 包 
的 结构 如 下 : 
包 文件 夹 1 


上 一 _pycache _ 
Eo _init_.py 
上 一 模块 1.py 
[一 一 模块 2.py 
包 文件 夹 2 

Co _pycache 
Eo init_.py 
玫 一 模块 1.py 
一 一 模块 2.py 


其 中 ， 每 个 模块 都 会 在 _、pycache_ 文件 夹 中 放置 该 模块 的 预 编译 模块 ， 命 名 为 
module.cpython-version.pyc， 是 模块 的 预 编 译 版 本 编码 ， 一 般 都 包含 Python 的 版 本 号 。 例 如 ， 在 
Python 3.6 中 ，decoder.py 文件 的 预 编译 文件 就 是 decoder.cpython-36.pyc。 这 种 命名 规则 可 以 保证 
不 同 版 本 的 模块 和 不 同 版 本 的 python 编译 器 的 预 编译 模块 共存 。 

图 8.8 所 示 是 json 包 的 结构 。 





名 称 修改 日 其 类 型 大 小 

DB _pycache_ 2018/1/17 15:15 文件 夫 

司 _init_py 2017/9/19 15:22 PY 文件 15 KB 
避 decoderpy 2017/6/17 19:57 ”PY 文件 13 KB 
司 encoder.py 2017/6/17 19:57 PY 文件 17 KB 
司 :cannerpy 2017/6/17 19:57 ”PY 文件 3 KB 
划 toolpy 2017/6/17 19:57 ”PY 文件 2 KB 





图 8.8 json 包 的 结构 


8.3.3 导入 自 定义 的 包 


前 面 曾经 使 用 过 一 个 自 定义 模块 , 我 们 将 其 放 在 一 个 文件 夹 下 并 增加 _init_.py 文件 , 最 终 将 
其 扩展 为 包 ， 详 细 步 骤 如 下 。 
(1) 一 个 testfun.py 文件 : 
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【示例 8-5】 

01 import math 

02 

03 def square(x) : 

04 return x*x 

05 def distance(xl,yl,x2,y2): 

06 L=math.sqrt (Square (x1-x2)+square (yl-y2)) 
07 return 工 

08 def isTriangle (xl,yl1,x2,y2,x3,y3): 

09 flag=((x1-x2) * (Y3-Y2) - (x3-x2)* (yl-y2) ) !=0 
10 return flag 


(2) 一 个 _init_.py 文件， 可 以 什么 内 容 都 没有 ， 也 可 以 添加 一 些 说 明文 字 ， 还 可 以 添加 一 
些 正 常 的 Python 代码 ， 这 个 没有 要 求 。 

# 添 加 一 些 说 明 ， 比 如 有 几 个 方法 ， 使 用 示例 

(3) 新 建文 件 夹 testpackage， 将 上 述 两 个 文件 都 放 入 该 文件 夹 中 。 最 终结 构 如 下 : 


testpackage 
上 一 pycache 
上 一 init .py 


[一 一 testfun.py 
提 ” 示 
_ pycache_ 会 自动 生成 。 


(4) 现在 在 IDEL 编辑 器 中 导入 自己 的 包 ， 代 码 如 下 : 
import testpackage .testfun 
print (testpackage.testfun.square(5)) #25 


上 述 代码 在 调用 模块 的 方法 时 ， 必 须 给 出 详细 的 路 径 ， 如 “ 包 . 模 块 .方法 名 ”这 种 形式 ， 否 则 
会 报错 ， 找 不 到 方法 。 


8.4 命名 空间 


在 Python 中 ,等 于 (=) 操作 并 不 是 复制 的 意思 ， 而 是 将 一 个 变量 名 指向 一 个 对 象 ， 或 者 说 将 

个 变量 名 和 一 个 对 象 绑 定 起 来 。Python 的 世界 可 以 看 成 有 两 个 世界 组 成 ， 一 边 是 有 着 各 种 各 样 

的 对 象 ， 一 边 各 种 不 同 的 变量 名 称 ， 这 些 名 称 如 果 不 和 对 象 绑 定 起 来 就 没有 意义 。 当 对 象 和 变量 名 
称 绑 定 的 时 候 ， 就 可 以 使 用 变量 名 称 调用 对 应 的 对 象 。 
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8.4.1 命名 空间 


命名 空间 是 名 称 到 对 象 的 映射 集合 ， 这 种 说 法 比较 抽象 。 举 个 例子 来 说 ， 一 个 计算 机 由 主板 、 
CPU、 硬 盘 、 内 存 等 各 部 分 组 成 ， 而 主板 、CPU、 硬 盘 等 都 是 一 个 个 与 真实 物品 一 一 对 应 的 名 字 ， 
计算 机 则 是 由 这 么 多 叫 着 不 同名 字 的 东西 组 合 起 来 的 , 那么 计算 机 就 算是 一 个 命名 空间 , 换 句 话说 
命名 空间 就 是 不 同 的 变量 和 变量 所 指向 的 对 象 的 集合 。 

命名 空间 是 一 个 广义 的 概念 ， 一 个 总 的 名 字 包 含 若干 个 对 象 ， 这 就 叫 命名 空间 。 比 如 模块 是 
命名 空间 ， 一 个 模块 包含 了 一 些 变量 、 函 数 和 类 ; 包 也 是 命名 空间 ， 它 包含 了 一 些 模块 和 子 包 ; 类 
也 是 命名 空间 ， 它 包含 自己 的 属性 和 方法 。 命名 空间 在 Python 中 是 一 个 底层 而 简单 的 概念 ， 而 类 、 
模块 、 包 都 是 通过 命名 空间 实现 的 高 层 概念 ， 就 像 整 数 、 小 数 、 字 符 串 都 是 对 二 进 制 数 进行 包装 而 
来 的 。 

命名 空间 的 作用 是 能 够 提供 对 变量 名 的 层次 访问 。Python 中 有 大 量 的 对 象 ， 又 有 更 多 的 变量 
指向 这 些 对 象 ， 而 命名 空间 能 够 把 这 些 变量 名 包装 起 来 提供 层次 性 的 访问 。 图 8.9 展示 了 命名 空间 
对 变量 名 层次 的 包装 。 
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命名 空间 BB 





命名 空间 AA 
图 8.9 命名 空间 的 作用 
图 8.9 中 的 变量 a、b、c、d 等 都 是 指向 不 同 对 象 的 变量 名 ， 如 果 没有 命名 空间 ， 所 有 的 变量 


名 的 层次 均 为 一 样 ， 而 一 旦 加 了 命名 空间 AA 和 BB， 变 量 名 如 图 8.9 所 示 可 以 分 成 各 个 层次 。 例 
如 ， 现 在 调用 变量 a， 则 要 如 下 代码 : 


print (AA.a) 


如 果 要 调用 变量 b， 因 为 它 还 在 命名 空间 BB， 所 以 层次 就 要 更 低 一 层 ， 代 码 如 下 : 
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print (AA.BB.b) 

从 上 面 可 以 看 出 ,命名 空间 的 作用 是 有 层次 地 管理 变量 和 变量 所 指向 对 象 ， 而 这 又 是 类 、 包 、 
模块 功能 的 基础 。Python 也 正 是 使 用 命名 空间 实现 了 类 、 模 块 、 包 等 更 高 级 的 功能 。 

那么 Python 的 命名 空间 是 用 什么 方式 创造 和 维护 的 呢 ? 答案 是 字典 ， 每 个 命名 空间 都 有 一 个 
_dict_ 属性， 该 属性 就 是 命名 空间 所 拥有 的 变量 和 变量 所 指向 对 象 的 绑 定 关系 ， 该 字典 的 key 值 
为 变量 名 称 ，value 是 具体 的 对 象 ， 例 如 : 


>>>class TestR: 
def printvalue (self) : 
print ("this is TestA") 


>>>TestA. dict 


mappingproxy({' module ': ' main ', 'printvalue': <function TestA.printvalue at 
0x00000271507A1E18>, ' dict ': <attribute ' dict ' of 'TestA' objects>, '_ weakref ': 
<attribute '_ weakref ' of 'TestA' objects>, '_ doc ': None}) 


上 面 代 码 定 义 了 一 个 类 TestA， 该 类 有 一 个 方法 printvalue， 打印 _dict_ 可 以 看 到 TestA 的 全 
部 变量 和 变量 所 对 应 的 对 象 , 包括 变量 _module 所 指向 的 一 个 字符 串 , 其 用 来 说 明 类 所 在 的 模块 
名 字 。_doc_ 因 为 该 类 没有 注释 说 明 , 所 以 指向 一 个 空 对 象 , 'printvalue' 是 该 类 的 内 置 方法 的 说 明 。 


8.4.2 全 局 命名 空间 


全 局 命名 空间 是 一 个 特殊 的 命名 空间 ， 一 旦 进入 Python 的 解释 器 ， 就 创建 了 一 个 全 局 命名 空 
间 (global name space) ， 这 是 全 局 唯一 的 命名 空间 。 该 命名 空间 已 经 有 若干 个 成 员 变 量 在 里 面 ， 
可 以 用 dir 函数 查看 命名 空间 有 几 个 变量 名 称 ， 例 如 : 

>>> air() 

[' annotations ', '_ builtins ', '_doc ', ' loader ', ' name ', '_ package_', 
BPOG "yy "BYa"] 

_ builtins_ 是 Python 的 内 置 模块 , 里 面包 括 了 各 种 内 置 的 类 型 函数 等 ， doc_ 是 该 命名 空间 
的 注释 文字 ，_name_ 是 用 来 标识 命名 空间 的 。 如 果 命 名 空间 是 全 局 命名 空间 ， 那 么 _name_ 就 
等 于 _main _， 例 如 : 

>>> print(_ name ) 


一 个 模块 文件 被 import 时 ， 它 的 命名 空间 _name_ 名字 就 和 模块 文件 的 名 字 一 样 ， 例 如 : 


>>> import sys 
>>> sys._ name __ 
rsys' 


当 一 个 模块 文件 使 用 Python 直接 运行 的 时 候 ， 因 为 该 模块 文件 的 命名 空间 是 直接 合并 到 全 局 
命名 空间 中 ， 所 以 _name_ 为 _main _ 。 例 如 ， 建 立 一 个 testpy 文件 ， 它 的 内 容 如 下 : 


value=3 





print (dir()) 
print(_ name ) 
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该 文件 有 一 个 变量 value 为 3，dir 用 来 打印 命名 空间 的 成 员 ， 直 接 在 命令 行 运行 test.py 的 结 
果 如 下 : 


F:\>python test.py 








En ennotations M4 boleLns Ns Monchbeod VY oc TOM Ho YT Jonaro tr 
'_name ', '_ Ppackage ', '_ spec_', 'value'] 
_main__ 


可 以 看 到 test.py 的 命名 空间 已 经 和 全 局 命名 空间 合并 到 一 起 ， 而 _name_ 属 性 为 _main_， 
也 正 因为 如 此 ， 所 以 一 般 在 模块 文件 的 结尾 如 下 代码 来 测试 : 

>>> if _ name ==' main _': 
测试 代码 
如 果 该 模块 文件 被 其 他 文件 import 的 话 ， name_ 不 会 等 于 _main _， 测 试 代码 就 不 会 被 执 
行 。 只 有 当 直 接 运行 该 模块 文件 的 时 候 ， 测 试 代码 才能 运行 ， 这 正好 为 单元 测试 提供 了 方便 。 

全 局 命名 空间 的 内 容 可 以 使 用 内 署 函 数 globals 获得 该 命名 空间 的 内 容 ， 例 如 : 


>>> globals() 

{'_ name ': ' main ', '_doc ': None，'_ package ': None, '_ loader ': <class 
'_frozen importlib.BuiltinImporter'>, '_ spec ': None, ' annotations ': {}, '_ builtins 
<module 'builtins' (built-in)>} 


上 面 的 例子 是 在 Pyshell 输入 globals 函数 得 到 的 结果 , 可 以 看 出 当前 全 局 变量 包括 _builtins_ 
内 置 模块 和 _name 、_doc_ 等 属性 变量 。 














8.4.3 ”局 部 命名 空间 


局 部 命名 空间 就 是 一 个 代码 块 所 创造 的 一 个 临时 的 命名 空间 ， 当 进入 该 代码 块 的 时 候 ， 局 部 
变量 空间 被 创建 ， 当 退出 这 个 代码 块 时 ， 该 局 部 变量 空间 就 被 销毁 。 例 如 定义 一 个 函数 TestA: 
>>> def TestA(): 
a=3 
print (locals()) 
print (globals ()) 


当 调 用 TestA 的 时 候 , 就 生成 该 函数 的 命名 空间 。 当 TestA 返回 或 抛 出 异常 的 时 候 ， 局 部 命名 
空间 就 被 删除 ， 获 得 局 部 命名 空间 的 内 容 可 以 用 locals 函数 ，TestA 运行 的 结果 如 下 : 


>>> TestR() 





i 
{'_name _': ' main '，'_ doc _': None, '_ package ': None, '_ loader _': <class 
'_frozen importlib.BuiltinImporter'>, '_spec_': None, '_annotations _': {}, '_ builtins _': 





<module "builtins' (built-in)>, 'sys': <module 'sys' (built-in)>, 'TestA': <function TestA at 
0x000002715144A598>} 


在 Python 查找 一 个 变量 名 的 时 候 , 有 一 个 LGB 原则 ,L 就 是 局 部 命名 空间 (local name space)， 
G 就 是 全 局 命名 空间 (global name space) ，B 就 是 内 置 命名 空间 (built in space) 。 也 就 是 说 ， 当 
使 用 一 个 变量 名 的 时 候 , 程序 优先 使 用 局 部 命名 空间 里 的 ， 如 果 局 部 命名 空间 没有 ， 再 去 查找 全 局 
命名 空间 ， 最 后 查找 内 置 命 名 空间 。 例 如 下 面 的 例子 : 
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>>> a=0 
>>> def TestAl(): 
a=4 


>>> TestR() 
>>> print (a) 
0 
上 面 的 例子 中 ， 全 局 命名 空间 下 有 一 个 变量 a， 而 TestA 下 也 有 一 个 局 部 变量 a， 当 将 a 和 数 
字 对 象 4 绑 定 的 时 候 ， 根 据 LGB 原则 ， 和 4 绑 定 的 变量 a 是 局 部 命名 空间 下 的 ， 与 全 局 命名 空间 
下 的 变量 a 没有 关系 ， 因 此 打印 a 得 到 的 结果 仍 为 0。 
在 局 部 命名 空间 里 也 可 以 通过 global 关键 字 指 定 变 量 为 全 局 命名 空间 ， 将 TestA 的 代码 改造 
如 下 : 
>>> def TestA(): 
global a 
a=4 
print (locals ()) 
上 面 的 TestA 在 a 前面 加 了 global 关键 字 , 这 样 a 就 不 属于 局 部 命名 空间 下 的 变量 , 而 是 全 局 
命名 空间 下 的 变量 ， 因 此 当 对 a 做 改变 的 时 候 ， 全 局 命名 空间 下 的 变量 a 也 就 改变 了 ， 例 如 : 
>>> a=0 
>>> def TestA(): 
global a 


a=4 
print (locals()) 


>>> TestR() 

Sn 

>>> print (a) 

4 

从 上 面 的 代码 可 以 看 出 , 如 果 在 TestA 下 使 用 global 关键 字 , 那么 这 个 a 和 在 TestA 函数 外 定 
义 的 a 是 同一 个 变量 ， 对 它 所 做 的 任何 操作 与 对 TestA 外 定义 的 那个 a 所 做 的 操作 是 完全 一 致 的 。 


8.4.4 ”命名 空间 和 类 


当 定 义 一 个 类 的 时 候 ， 实 际 上 是 创建 了 名 字 为 类 名 的 命名 空间 ， 所 有 定义 的 属性 和 方法 都 放 
到 了 _dict_ 属性 里 ， 例 如 : 


>>> class A: 
a=3 
def hello(self): 
print ("hello world") 


>>> A._ dict __ 


mappingproxy ({'_module ': '_ main ', 'a': 3, 'hello': <function A.hello at 
0x00000271514416R8>，' dict ': <attribute' dict ' of 'A' objects>, ' weakref ': <attribute 
'_ weakref ' of 'A' objects>, '_doc _': None}) 


上 面 的 代码 定义 了 一 个 类 A， 可 以 看 到 A 的 命名 空间 的 内 容 包括 自 定义 属性 a 和 方法 'hello'， 
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而 类 调用 自身 属性 和 方法 A.a 或 A.hello, 都 等 同 于 Adict 【'a"] 或 者 A. dict _[“hello*]0, 例如 


55> A dict ("ay 
3 

>>> A.a 

3 





8.4.5 ”命名 空间 和 类 的 实例 化 


在 类 的 概念 中 ， 主 要 的 就 是 实例 化 和 继承 。 类 既然 是 命名 空间 ， 那 么 类 在 做 实例 化 的 时 候 ， 
它 的 对 象 的 命名 空间 又 是 什么 情况 呢 ? 一 个 类 可 能 有 很 多 个 实例 化 对 象 ,每 个 对 象 都 有 自己 独立 的 
命名 空间 ， 对 Python 设计 者 而 言 ， 比 较 简单 的 设计 就 是 直接 将 类 的 命名 空间 复制 给 实例 化 对 象 命 
名 空间 ， 如 图 8.10 所 示 。 












































复 制 一 gsTestA 的 _dict 复制 
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实例 对 象 A 的 _ dict 实例 对 象 B 的 _dict 
图 8.10 ”对象 命名 空间 的 设计 


图 8.10 展示 的 这 种 设计 比较 简单 ， 当 类 TestA 要 实例 化 一 个 对 象 的 时 候 ， 直 接 将 类 的 命名 空 
间 复 制 给 对 象 ， 然 后 对 象 就 有 了 类 的 所 有 了 能力。 然而 这 是 一 种 简单 却 也 是 非常 浪费 内 存 的 设计 ， 试 
想 一 下 ,一 个 类 可 能 会 实例 化 成 百 上 千 个 对 象 ， 那 就 要 复制 几 千 个 _dict _， 而 复制 的 _dict_ 大 多 
数 地 方 是 重复 的 ， 这 就 是 对 内 存 的 重大 浪费 。 因 此 ，Python 设计 者 在 设计 类 的 实例 化 时 ， 为 了 节 
省 内 存 ， 类 的 属性 和 方法 都 放 在 类 的 命名 空间 中 ,， 当 对 象 调用 这 些 属性 和 方法 ， 实 际 上 是 查找 类 的 
命名 空间 ， 而 当 对 象 对 类 的 属性 和 方法 改变 时 ， 改 动 以 后 的 属性 和 方法 则 放 到 了 对 象 的 命名 空间 ， 
这 样 既 能 节省 内 存 ， 各 对 象 也 能 拥有 自己 的 属性 和 方法 。 如 图 8.11 所 示 的 就 是 Python 中 类 的 命名 
空间 的 处 理 。 
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复制 类 TestA 了 的 _dict 复制 









































实例 对 象 A 的 _dict__ 实例 对 象 B 的 _dict 
8.11 Python 对 象 的 实例 化 示意 图 


图 8.11 展示 了 类 在 实例 化 的 时 候 命名 空间 的 设计 ， 类 TestA 有 属性 a 和 b 及 方法 hello， 它 的 
代码 如 下 : 
>>> class TestA: 
a=3 
b=4 
def hello(self): 
print ("hello world") 


>>> TestA. dict _ 


mappingproxy({' module ': '_ main _', 'a': 3, 'b': 4, 'hello': <function TestA.hello at 
0x0000027151441E18>, '_ dict ': <attribute '_ dict ' of 'TestA' objects>, ' weakref _': 
<attribute ' weakref ' of 'TestA' objects>, '_doc ': None}) 


可 以 看 到 TestA 的 命名 空间 包括 a 和 b 及 方法 hello， 而 类 的 实例 对 象 A 和 B 在 被 实例 初始 化 
的 时 候 ， 为 了 节省 空间 ， 它 们 的 命名 空间 是 空 ， 它 们 都 直接 使 用 了 类 的 命名 空间 ， 示 例如 下 : 


>>> A=TestA() 
>>> B=TestA() 
>>> A.a 

3 

>>> B.hello() 
hello world 
>>> A dict 
{} 

>>> B. dict _ 


从 上 面 的 代码 可 以 看 到 ， 对 象 A 和 B 被 实例 化 时 它们 的 命名 空间 为 室 ， 实 际 上 它们 使 用 的 是 


172 | Python 3.6 零 基础 入 门 与 实战 





类 的 命名 空间 ， 当 A 和 B 对 属性 a 和 b 进行 改变 的 时 候 ， 因 为 变量 a 和 b 所 指向 的 对 象 发 生 了 变 
化 ， 不 能 再 共用 类 的 命名 空间 了 ， 所 以 A 和 B 将 属性 加 到 了 自己 的 命名 空间 里 : 


>>> A.a=4 

>>> A.b=5 

>>> B.b=5 

>>> A._ dict __ 

2 | 

> ob 

Le 

从 上 面 的 分 析 可 以 看 出 Python 的 实例 化 对 象 查 找 变量 的 过 程 ， 即 先 查 找 自 己 的 命名 空间 ， 然 
后 查找 自身 类 的 命名 空间 。 


8.4.6 ”命名 空间 和 类 的 继承 


类 的 继承 也 是 通过 命名 空间 来 实现 的 。 假 设 有 一 个 类 A 继承 于 类 B， 也 就 是 说 A 拥有 了 B 的 
所 有 的 属性 和 方法 , 那么 A 是 不 是 也 是 复制 了 B 的 命名 空间 呢 ? 虽然 Python 实现 的 最 终结 果 就 如 
同 A 复 制 了 B 的 命名 空间 一 样 ， 不 过 在 Python 的 具体 实现 过 程 中 要 复杂 一 些 ， 这 样 做 的 目的 也 是 
为 了 节省 内 存 ， 做 法 和 实例 化 的 方法 一 致 。 如 图 8.12 所 示 的 就 是 类 做 继承 的 时 候 对 命名 空间 的 查 
找 。 

























































































类 TestB 


























类 TestD 
图 8.12 ”Python 类 继承 时 命名 空间 查找 顺序 


实际 上 ， 类 TestD 继承 自 TestA、TestB、TestC 并 不 是 把 它们 的 命名 空间 复制 到 自身 的 命名 空 
间 中 ， 而 是 先 在 TestD 的 命名 空间 中 查找 属性 和 方法 ， 如 果 找 不 到 ， 再 去 TestA 中 找 。 整 个 查找 命 
名 空间 的 办 法 就 是 图 8.12 所 显示 的 虚线 路 径 ， 这 样 既 使 得 TestD 拥有 了 父 类 的 所 有 属性 和 方法 ， 
同时 节约 了 内 存 ， 以 下 代码 是 图 8.12 的 代码 演示 。 

01 >>> class TestR: 

02 a=3 

03 def hello (self) : 

04 print("this is TestA!") 
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从 代码 可 以 看 到 ，TestD 继承 了 TestA、TestB、TestC， 但 是 它 的 _dict_ 里 只 有 一 个 自己 定义 
的 属性 a， 而 当 使 用 TestD.b 和 TestD.c 调用 b 和 * 的 属性 的 时 候 ，TestD 自身 的 命名 空间 里 没有 ， 
TestD 就 根据 _bases_ 存 放 的 父 类 的 说 明 ， 从 左 到 右 一 个 个 检查 父 类 的 命名 空间 ， 直 到 找到 需要 找 
的 变量 ， 其 查找 的 路 径 正 如 图 8.12 中 虚线 路 径 一 样 。 


第 9 章 
Tkinter 模块 一 一 图 形 界面 编程 


图 形 界面 编程 是 Python 应 用 的 一 个 方向 。 目 前 流行 的 Python GUI 开发 工具 包 有 PyQt、PyGTK、 
Kivy、Flexx、wxPython 、thrust、cefpyhton、Tkinter 等 ， 它 们 各 有 千秋 。 比 如 PyQt， 稳 定 、 开 发 
的 界面 效果 好 ， 但 商用 的 需 付费 ， 而 本 章 讲 的 Tkinter， 简 单 易 用 ， 但 进行 商用 应 用 开发 的 话 不 建 
议 使 用 , 它 所 开发 出 的 界面 颜 值 一 般 , 在 当今 讲究 用 户 体验 的 互联 网 时 代 显 得 格格 不 入 。 尽 管 如 此 ， 
它 仍 是 我 们 学 习 python GUI 开发 的 入 门 首选 。 

本 章 主要 涉及 的 知识 点 有 : 

®@ Tkinter 模块 : 通过 Tkinter 模块 的 介绍 了 解 如 何 使 用 python 进行 GUI 开发 。 

@ Tkinter 控件 : 主要 介绍 Tk 控件 的 创建 及 使 用 ， 为 图 形 界面 开发 提供 效果 与 展现 。 

® GUI 开发 流程 : 通过 一 个 简单 记事 本 的 开发 ， 使 用 户 掌握 GUI 的 开发 流程 。 


9.1 Tkinter 模块 


Tkinter 模块 是 Python 标准 的 TK GUI 工具 包 接 口 , 给 Python 应 用 提供 了 一 个 易于 编程 的 用 户 
界面 。 它 直接 内 置 Python 安装 包 Lib/tkinter 中 ， 我 们 这 里 所 说 的 Tkinter 模块 其 实 是 指 tkinter 包 。 
在 Python 2.x 版 本 中 位 于 Lib/lib-tk 中 ， 仔 细 查 看 源 代 码 会 发 现 两 个 版 本 有 些 不 同 。 


在 两 个 版 本 中 都 可 以 使 用 import tkinter， 但 在 Python 3.x 不 能 使 用 import Tkinter， 会 报 
“ModuleNotFoundError” 错 误 。 





大 多 数 情况 下, tkinter 模块 包含 了 界面 开发 需要 的 基本 接口 。 如 果 对 Tk 底层 有 接口 依赖 的 话 ， 
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有 一 个 _tkinter 二 进 制 模 块 可 供 调用 ， 只 是 不 宜 直接 调用 它 。 

tkinter 的 导入 语句 : 

>>> import tkinter 

该 导入 方式 直接 把 tkinter 中 的 模块 都 导入 了 进去 ， 在 后 续 代 码 中 便 可 直接 调用 。 比 如 需要 使 
用 模块 constants， 使 用 方式 为 tkinter.constants。 

常用 的 做 法 是 : 

>>> from tkinter import * 

该 方式 效率 相对 快 一 些 ， 因 为 它 可 以 根据 代码 需要 导入 相应 的 模块 ， 所 以 省 去 了 非 必要 模块 
导入 的 时 间 。 


gd 


Tkinter 模块 的 Hello World 程序 


【示例 9-1】 
新 建 一 个 文件 tk_hello.py， 输 入 如 下 代码 ; 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
3 
12 
323 
14 
15 
16 
2 
18 
六 9 
20 
21 
22 
23 
24 
25 
26 
2 
28 
| 
30 


# 导入 tkinter 模块 ， 并 付 给 tk 
import tkinter as tk 


# 定 义 一 个 Application, 该 类 继承 tk.Frame 
class Application (tk.Frame) : 
def init (self, master=None): 
super(). init (master) 
self .pack () 
self.create widgets() 
# 创建 控件 函数 
# 如 下 代码 其 实 类 似 于 : 
# hi there=tk.Button(text="Hello World! (点 击 ) "， command=say_hi) 
# hi there.pack(side="botton") 
# quit = tk.Button (text=" 退 出 "，fg="#ff0000"，command=root .destory) 
def create widgets (self): 
self.hi there = tk.Button(self) 
self.hi there["text"] = u"Hello World! (点 击 )" 
self.hi there["command"] = self.say hi 
self.hi there.pack (side="top") 


self.quit = tk.Button (self，text=u" 退 出 "， fg="#ff0000"， 
command=root.destroy) 
self.quit .pack(side="bottom") 


def say_hi (self) : 
print (uv 点 击 Hello World 命令 行 输出 该 语句 ! ") 


root = tk.Tk() 
app = Application (master=root) 
app .mainloop() 


运行 结果 如 图 9.1 所 示 。 
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Hello World! (点 去 ) 





退出 





图 9.1 tk_hellopy 的 运行 结果 


接 下 来 对 代码 进行 讲解 。 首 先导 入 tkinter 并 保存 为 对 象 未 ， 读 者 应 该 发 现 该 导入 方式 与 之 前 
的 介绍 有 点 出 入 。 事 实 上 ， 在 开发 中 常常 有 这 样 的 操作 ， 因 为 它 无 须 全 部 导入 模块 的 类 、 属 性 、 方 
法 等 ， 而 是 根据 需要 选择 合适 的 类 、 属 性 或 方法 进行 调用 ,所 以 在 某 种 程度 上 既 节省 了 内 存 空间 又 
提高 了 加 载 速度 。 接 着 定义 了 Application 类 ,该 类 属于 继承 类 (多 层 及 多 重 继承 ) ， 即 父 类 Frame 
继承 于 Widget，Widget 继承 于 BaseWidget、Pack、Place 和 Grid 等 ， 这 些 可 以 从 tkinter 包 中 的 
_ init_.py 源 代码 中 看 出 来 。 在 Application 类 中 ，_init_() 为 其 构造 方法 ， 初 始 化 新 创建 对 象 的 
状态 。 至 于 如 何 理 解构 造 方法 ， 这 里 给 出 一 个 小 例子 : 

>>> class Testinit: 


def _init (self, pro=None): 
self.pro = "Python 从 入 门 到 精通 " 


>>> a = Testinit() 
>>> a.pro 


"Python 从 入 门 到 精通 ' 


可 以 看 出 实例 化 Testinit 类 后 便 能 直接 调用 属性 pro 的 值 ， 如 果 没有 构造 函数 初始 化 ， 就 无 法 
调用 。 


在 初始 化 函数 中 定义 的 属性 为 实例 属性 ， 比如 刚才 讲 的 pro 属性 , 而 在 类 下 直接 定义 的 属性 





_init _() 中 有 个 super0. init _0 调 用 ，super0 函 数 用 来 查找 超 类 及 超 类 的 超 类 ， 直 到 找到 所 
需 特性 。 超 类 即 父 类 用 于 继承 ， 当 父 类 的 属性 和 行为 是 私有 的 ， 子 类 是 没 法 继承 的 。 接 着 上 面 的 小 
例子 : 


>>> class SonTestinit (Testinit): 
def _init (self, son pro=None): 


self .son_pro="Tk 模块 ， 图 形 界面 编程 " 


>>> b = SonTestinit() 
>>> b.son pro 
'Tk 模块 ， 图 形 界面 编程 ' 
>>> b.pro 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'SonTestinit' object has no attribute 'pro' 
>>> 


从 代码 可 以 看 出 实例 b 并 没有 继承 类 Testinit 初始 化 的 pro 属性 ， 不 难 理解 pro 并 不 是 Testinit 
类 属性 ， 它 仅 是 实例 属性 ， 如 果 将 类 Testinit 改 成 如 下 就 可 以 继承 了 : 
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>>> class Testinit: 


pro = "Python 从 入 门 到 精通 " 


如 果 不 改 Testinit 类 ， 我 们 就 可 以 通过 调用 super() 函 数 进行 pro 实例 属性 继承 处 理 。 

上 述 pack() 方 法 通过 使 用 参数 选项 / 值 的 键 值 对 控制 控件 在 其 容器 中 显示 的 位 置 ， 以 及 调整 主 
应 用 程序 窗口 大 小 时 的 行为 方式 ， 默 认 方向 为 窗口 顶部 , 即 控件 呈现 在 窗口 顶部 。 接 下 来 调用 自 创 
建 的 create_ widgets() 方 法 ， 该 方法 调用 Button 控件 并 设置 其 文本 和 回调 函数 等 。 

tk.TkO 创 建 了 应 用 程序 的 主 窗口 。Application 实例 在 主 窗 口 里 创建 了 控件 ， 而 mainloop0 方 法 
对 应 用 进行 了 重建 ， 即 消息 循环 。 

Hello World 程序 阐释 了 Tkinter 图 形 界面 编程 的 基本 流程 ， 大 部 分 Tkinter GUI 应 用 遵循 该 流 
程 ， 同 时 简单 地 讲 叙 了 子 类 、 超 类 、 继 承 等 问题 。 


9.1.2 tkinter 包 介 绍 


都 有 其 


通常 情况 下 ， 上 述 Tkinter 模块 的 叫 法 是 不 妥当 的 ， 在 Python 3x 源 代码 的 Lib 目录 下 可 以 看 
出 tkinter 是 以 包 的 形式 存在 的 。 在 tkinter 包 里 存在 几 个 不 同 的 模块 ， 分 别 是 : 


包含 常量 定义 的 tkinter.constants 模块 ; 

小 控件 包装 器 的 tkintertix 模块 ; 

提供 类 可 使 用 Tk 主题 小 控件 集 的 tkinterttk 模块 ; 

包含 垂直 滚动 条 文本 控件 的 tkinterscrolledtext 模块 ; 

让 用 户 选择 颜色 对 话 框 的 kinter.colorchooser 模块 ; 

对 接 Tkinter 接口 的 tkinterdialog 模块 ; 

列 出 其 他 模块 中 定义 对 话 框 基 类 的 tkintercommondialog 模块 ; 
允许 用 户 指 定 打 开 / 保 存 文件 通用 对 话 框 的 tkinter.filedialogtkinter.filedialog 模块 ; 
处 理 字体 的 tkinterfont 模块 ; 

标准 Tk 对 话 框 的 tkinter.messagebox 模块 ; 

基本 对 话 框 和 常用 功能 的 tkintersimpledialog 模块 ; 
支持 拖 放 的 tkinterdnd 模块 。 


除了 上 述 模块 外 ，tkinter 包 在 其 初始 化 _init_.py 文件 中 包含 类 Tk 和 工厂 函数 Tcl0。Tk 类 
属于 多 重 继续 。 具 体 表示 如 下 : 


class tkinter.Tk(screenName=None, baseName=None, className='Tk', useTk=1) 


Tk 没有 参数 ， 被 实例 化 时 将 创建 一 个 顶层 的 Tk 窗口 ， 遂 常 是 应 用 程序 的 主 窗 口 。 每 个 实例 














自身 相关 联 的 Tcl 解释 器 。 


def Tcl (screenName=None, baseName=None, className='Tk', useTk=0): 


return Tk(screenName, baseName, className, useTk) 


Tcl0 函 数 实际 上 返回 的 是 Tk 类 , 不 同 的 是 它 不 会 初始 化 Tk 子 系统 ， 可 从 useTk=0 看 出 , 这样 处 
理 通常 很 有 有 用 。 当 驱动 Tcl 解释 器 不 希望 创建 外 来 顶层 窗口 的 环境 或 不 能 直接 创建 窗口 的 环境 时 ， 通 
过 TclO 函 数 创建 的 对 象 就 很 有 必要 ， 当 然 仍 可 以 通过 调用 loadtk0 方 法 创建 一 个 顶层 窗口 。 
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Python 2.x 和 Python 3.x 关于 各 模块 的 命名 有 着 很 大 的 区 别 ， 而 且 个 别 模块 发 生 更 改 ， 注 意 
查看 源 代 码 目录 下 的 模块 。 





当然 ,在 _init _.py 文件 中 ,更 多 的 是 各 个 控件 类 及 其 属性 方法 的 定义 。 在 9.2 节 我 们 将 对 这 
些 控件 进行 讲述 。 
Tkinter 模块 在 Python 2.x 和 Python 3.x 的 不 同 可 参见 表 9.1。 
表 9.1 Tkinter 模块 在 Python 3.x 和 Python 2.x 的 不 同 


Python 2.x 
import ttk 










Python 3.x 
importtkinterttk  / 
from tkinter import ttk 
import tkintermessagebox 
import tkinter.colorchooser 
import tkinter.filedialog 























import tk MessageBox 


import tkColorChooser 
import tkFileDialog 
















import tkinterscrolledtext 
import tkintertix 


可 以 看 出 Python 3.x 版 本 的 内 容 更 多 ， 其 命名 规则 干净 、 优 雅 、 系 统 化 ， 同 时 其 模块 是 以 小 写 
的 形式 出 现 。 因 此 ， 如 果 看 到 “from Tkinter import * ”， 说 明 它 对 应 python 环境 是 2.x。 
为 了 兼容 两 个 版 本 ， 我 们 常常 使 用 try...except... 进 行 判 断 ， 比 如 对 tkinter 模块 引用 的 判断 。 


import tkinter.simp 





import tkinter.commondialog 
import tkinter.font 













try: 
import tkinter as tk 
except ImportError: 
import Tkinter as tk 
try: 
import tkinter.messagebox 
except: 
import tkMessageBox 


事实 上 ， 在 目前 两 个 版 本 都 使 用 的 情况 下 ， 为 了 兼容 代码 常常 会 作出 这 样 的 处 理 ， 而 且 不 仅 
限于 模块 的 引用 ， 包 括 函数 、 属 性 等 。 


9.1.3 主 窗 口 
使 用 Tkinter 模块 创建 主 窗口 非常 简单 ， 使 用 如 下 代码 便 可 以 创建 一 个 主 窗口 。 
【示例 9-2】 


01 from tkinter import * 
02 root = Tk() 
03 “## 进入 消息 循环 


04 root.mainloop() 
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将 上 述 代码 保存 为 main tk.py， 运 行 结 果 如 图 9.2 所 示 。 
(tk 








图 9.2 main tk.py 运行 结果 


这 个 窗口 包含 了 标题 及 其 图 标 、 最 小 化 、 最 大 化 、 关 闭 及 空白 框 等 ， 这 是 GUI 编程 基本 的 一 
个 界面 风格 。 下 面 对 每 一 行进 行 描述 : 

第 01 行 引 入 tkinter 模块 所 有 类 、 属 性 、 方 法 进入 当前 工作 区 ， 建 议 按 模块 tk_hello.py 代码 中 
引用 方式 。 

第 02 行 创建 一 个 tkinter.Tk 类 实例 root， 该 实例 就 是 一 个 主 窗 口 。 

第 04 行 执行 了 实例 的 主 循环 方法 ， 该 方法 目的 是 为 了 主 窗口 保持 可 见 ， 如 果 不 添加 该 方法 ， 
执行 完 第 二 行 创建 的 窗口 就 立即 消失 , 甚至 都 来 不 及 看 到 它 的 界面 。 使 用 该 方法 创建 的 窗口 可 以 单 
击 “ 关 闭 ” 按 钮 退出 主 循环 。 


因为 mainloop 方法 已 在 Tkinter 模块 中 公开 化 ， 所 以 可 以 直接 调用 mainloop()， 而 不 需 调 用 


root.mainloop(). 





9.2 Tkinter 控件 


主 窗口 已 经 创建 完成 ， 下 面 就 可 以 在 其 中 创建 我 们 需要 的 相关 控件 了 。 这 些 控件 可 以 说 是 
Tkinter 模块 中 较为 核心 的 内 容 之 一 


9.2.1 控件 的 介绍 


在 上 文 Hello World 程序 中 就 已 经 提 及 了 Button 控件 , 这 里 我 们 将 列 出 Tkinter 模块 中 21 个 核 
心 控 件 ， 上 有 具体 名 称 及 其 描述 如 表 9.2 所 示 。 
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表 9.2 Tkinter 控件 









































控件 描述 

BitmapImage 在 标签 、 按 钮 、 画 布 和 文本 小 控件 中 显示 位 图 图 像 

Button 按钮 ， 用 于 执行 命令 或 其 他 操作 

Canvas 结构 化 图 形 ， 用 于 绘制 图 形 ， 创 建 图 形 编辑 器 及 实现 自 定义 控件 类 

Checkbutton 单 击 复 选 按钮 ， 可 在 两 个 值 之 间 进 行 切换 

Entry 文本 输入 框 或 文本 域 

Frame 容器 ， 可 拥有 边框 和 背景 ， 是 屏幕 上 的 一 块 矩 形 区 域 ， 可 集合 其 他 控件 

Label 显示 文本 或 图 像 的 标签 

LabelFrame 集合 其 他 小 控件 的 容器 控件 ， 它 有 一 个 可 选 标签 , 可 能 是 一 个 纯 文 本 字符 串 或 另 一 个 小 
控件 

Listbox 列表 框 

Menu 显示 下 拉 菜 单 或 弹出 菜单 的 菜单 栏 

Menubutton 下 拉 菜 单 的 菜单 按钮 

Message 类 似 于 标签 显示 文本 ， 但 能 自动 将 文本 放 在 指定 宽 高 内 


OptionMenu 可 选 菜单 

PanedWindow 水 平 或 垂直 推 放 控 件 的 窗口 

PhotoImage 在 标签 、 按 钮 、 画 布 和 文本 小 控件 显示 图 像 〈 真 彩色 或 灰 度 图 像 ) 
Radiobutton 单 选 按钮 








Scale 滑 块 ， 通 过 滑 块 设置 数字 值 

Scrollbar 滚动 条 ;配合 使 用 canvas、 entry、 listbox、text 窗口 控件 的 标准 滚动 条 

Spinbox 与 Entry 类 似 ， 但 可 指定 输入 范围 值 

Text 格式 化 的 文本 显示 ， 支 持 内 媒 图 片 和 文本 ， 人 允许 用 不 同 风 格 和 属性 显示 和 编辑 文本 
Toplevel 用 来 创建 子 窗口 的 窗口 组 件 


在 tkinterttk 模块 中 还 有 一 些 不 同 的 控件 ， 如 Progressbar， 这 些 一 般 都 继承 于 Widget 类 。 





对 于 这 些 控件 ， 我 们 该 如 何在 主 窗口 中 使 用 呢 ? 从 前 面 Button 控件 的 使 用 不 难看 出 添加 控件 
的 方式 : 

widget = Widget-name (容器 ，** 配置 选项 ) 

在 ipython 控制 台 进 行 实例 阐释 : 

In [1] : from tkinter import * 

In [2]: root = Tk() 

In [3] : label = Label(root，text=' 这 是 一 个 标签 控件 ') 

In [4]: button = Button (root,text=' 这 是 一 个 按钮 控件 ') 


In [5]: label.pack() 
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In [6]: button.pack() 


In [7]: root.mainloop() 

之 所 以 在 控制 台 执行 ， 是 为 了 方便 解释 。 一 般 对 于 代码 过 长 的 内 容 不 建议 在 控制 台 执行 ， 而 
是 以 文件 的 形式 保存 执行 。 

In[3] 添 加 一 个 Label 实例 , 即 一 个 标签 控件 ， 其 首 个 参数 root 是 一 个 主 窗口 。 在 主 窗口 中 有 一 
个 标签 控件 ， 其 文本 是 “这 是 一 个 标签 控件 ”。In[4] 同 样 添加 一 个 按钮 控件 在 主 窗口 中 。pack0 方 
法 用 于 在 窗口 中 定位 标签 和 按钮 等 控件 的 位 置 ， 该 方法 在 后 面 几 何 管理 器 中 会 介绍 。 

而 且 In[3] 可 以 和 In[5] 整 合 在 一 起 使 用 ，In[4] 和 In[6] 亦 同 ， 可 以 表示 为 : 

Label (root，text=' 这 是 一 个 标签 控件 ') .pack() 

当然 ， 这 样 执行 会 发 现 它 没有 创建 一 个 对 象 或 实例 ， 如 果 在 后 续 代 码 中 需要 使 用 该 对 象 或 实 
例 ， 就 会 带 来 不 便 ， 因 此 建议 初学 者 分 开 使 用 。 

上 述 代码 运行 结果 如 图 9.3 所 示 。 

tk 呈 回 有? 























图 93 ipython 中 输入 代码 运行 结果 


9.2.2 ”控件 的 特性 


对 于 Button、Label 之 类 的 控件 来 说 ， 它 们 拥有 一 些 共 同 的 特性 : 这 些 控件 都 是 各 控件 类 派生 
出 来 的 对 象 ， 比 如 button 控件 是 控件 类 Button 的 实例 。 每 个 控件 有 一 组 选项 决定 它 的 行为 和 外 观 ， 
比如 文本 标签 、 颜 色 及 字体 大 小 等 。 就 拿 Button 控件 来 说 ， 它 有 一 些 属性 管理 它 的 标签 、 控 制 它 
的 大 小 、 更 改 它 的 颜色 等 。 这 些 属性 ， 可 以 在 创建 时 就 设 定 ， 比 如 上 述 代码 In [3] 中 Label 控件 中 
的 文本 参数 text， 此 外 也 可 以 通过 .config() 或 .configure0 方 法 在 后 续 设置 选项 。 





查看 源 代码 会 发 现 .config() 与 .configure() 方 法 是 等 价 的 ， 提 供 相同 的 功能 。 


当然 ， 这 些 控件 的 属性 不 一 定 是 相同 的 ， 即 它们 有 共同 的 标准 属性 又 有 自己 相对 应 的 属性 ， 
表 9.3 列 出 了 它们 的 标准 属性 。 至 于 它们 自身 特有 的 属性 需 查 看 其 文档 ,在 后 续 如 有 引用 将 会 做 出 
解释 。 
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表 9.3 标准 属性 及 其 描述 









































属性 描述 

Anchor 指定 锚 点 

Bitmap 指定 位 图 

Class 指定 类 

Cursor 指定 要 用 于 小 控件 的 鼠标 光标 

Color 指定 控件 颜色 

Dimension 指定 控件 大 小 

Font 指定 字体 

Style 指定 样式 

Takefocus 确定 在 键盘 遍历 时 窗口 是 否 接受 焦点 





9.2.3 Tkinter 几何 管理 器 


Tkinter 几何 管理 器 主要 用 于 设 定 控件 的 位 置 。 比 如 上 述 代码 中 pack() 方 法 的 调用 就 是 一 个 几 
何 管理 器 调用 的 实例 。 当 然 ，pack(0) 不 是 唯一 管理 几何 接口 的 方法 。 

在 Tkinter 模块 中 有 3 种 方法 可 以 指定 位 置 ， 分 别 是 pack0、grid0、place(0)。 这 3 种 方法 对 应 
着 3 个 几何 管理 器 : 包 管 理 器 、 网 格 管理 器 和 位 置 管理 器 。 

1. 包 管理 器 


包 管 理 器 通过 pack0) 方 法 调 取 使 用 ， 它 包含 一 些 常用 选项 ,分 别 为 side、fill、expand、anchor、 
ipadx、ipady、padx、pady 等 。 


@ side 的 取 值 有 LEFT、TOP、RIGHT 及 BOTTOM， 用 于 决定 控件 的 对 齐 方 式 。 

e@ fill 的 取 值 有 X、Y、BOTH 及 NONE， 用 于 决定 控件 的 尺寸 变化 。 

@ expand 的 取 值 为 布尔 值 ， 如 tkinter.YES/tkinter.NO、1/0、True/False。 

e@ ”anchor 的 取 值 有 NW、N、NE、E、SE、S、SW、 W 及 CENTER， 表 示 对 应 的 主 方向 。 
@ ipadx、ipady、padx、pady 表示 内 外 部 填充 ， 它 们 的 默认 值 为 0。 


【示例 9-3】 
下 面 以 具体 实例 讲述 pack() 方 法 中 这 些 常用 选项 的 使 用 。 创 建文 件 tk_pack.py, 输入 如 下 代码 : 


01 from tkinter import * 
02 “ 创建 主 窗口 

03 root = Tk() 

04 “## 创建 框架 


05 frame = Frame (root) 


07 “# 包 管理 器 中 的 标签 文本 

08 Label (frame，text=" 包 侧面 和 填充 的 演示 ") .pack () 

09 # 左边 ,了 填充 

10 “Button (frame，text=" 左 边 ，Y 填充 ") .pack (side=LEFT,， fill=Y) 
11  # 顶部 ,Xx 填充 

12 Button (frame，text=" 顶 部 ，X 填充 ") .pack (side=TOP，fil1=X) 
13 ”# 右边 ， 不 填充 
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14 
15 
16 
17 
18 
19 
20 
2 
22 
23 
24 
25 
26 
27 
28 
2 


Button (frame，text=" 右 边 ， 不 填充 ") .pack(side=RIGHT， fil1=NONE) 
# 项 部， 底部 填充 
Button (frame，text=" 顶 部 ， 底 部 填充 ") .pack (side=TOP，fil1=BOTH) 


frame .pack() 


# 包 管理 器 的 标签 文本 

Label (root，text=" 包 扩展 演示 ") .pack () 

# 不 扩展 

Button (root，text=" 不 扩展 ") .pack () 

# 扩展 不 填充 

Button (root，text=" 扩 展 不 填充 ") .pack (expand = 1) 

# 填充 X 且 扩展 

Button (root，text=" 填 充 扩展 ") .pack (fil1=X，expand=1) 
# 消息 循环 


Froot.mainloop () 


运行 结果 如 图 9.4 所 示 。 














图 94 人 纱 _pack.py 运行 结果 


2. 网 格 管理 器 

相 比 包 管理 器 ， 网 格 管理 器 容易 得 多 。 网 格 管理 器 是 Tkinter 模块 较为 重要 的 管理 器 ， 它 的 核心 思 
想 就 是 将 容器 框架 组 织 在 一 个 二 维 表 中 ， 将 其 分 成 若干 行 和 列 。 换 言 之 ，grid() 方 法 包含 row 和 column 
参数 ， 每 个 单元 格 对 应 一 个 小 控件 ， 当 然 一 个 控件 可 以 占有 多 个 单元 格 。 

在 每 个 单元 格 中 可 以 使 用 sticky 选项 调整 小 控件 的 位 置 及 扩展 方式 .如 果 容 器 单元 格 大 于 其 所 
包含 的 控件 大 小 ， 可 以 通过 N、S、E、W、NW、NE、SW 和 SE 等 值 进行 设 置 。 

对 于 grid() 方 法 ， 除 了 row、column 、sticky 选项 外 ， 还 有 padx、pady、rowspan 和 columnspan 


等 选项 。 
【示例 9-4】 
创建 文件 tk_grid.py， 输 入 如 下 代码 : 
01 from tkinter import * 
02 ”=# 创建 主 窗口 
03 root = Tk() 
04 。 # 标 签 及 其 几何 位 置 
05 Label (root，text=" 用 户 名 ") .grid (row=0,，sticky=W) 
06 Label (root，text=" 密 码 ") .grid (row=1, sticky=W) 
07 Label (root，text=" 邮 箱 ") .grid (row=2， sticky=W) 
08 “# 文本 及 其 几何 位 置 
09 ”Entry (root) .grid(row=0, column=1, sticky=E) 
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10 Entry(root) .grid(row=1, column=1, sticky=E) 
11 Entry(root).grid(row=2, column=1, sticky=E) 
12 Checkbutton (root，text=' 记 录 输 入 值 ') .grid(row=3，column=1，columnspan=4，sticky='w') 
13 Button (root, text=" 注 册 ") .grid(row=4, column=1, sticky=W) 
14 “## 消息 循环 
15 root.mainloop() 


运行 结果 如 图 9.5 所 示 。 


























图 95 业 _gridpy 运行 结果 


3. 位 置 管理 器 
在 Tkinter 模块 中 位 置 管理 器 使 用 相对 较 少 , 一 般 在 GUI 游戏 中 会 有 所 涉及 ， 它 主要 是 通过 使 
用 (x,y) 坐 标 系统 精确 定位 小 控件 。 
位 置 管理 器 通过 place() 方 法 继续 访问 ， 该 方法 有 一 些 重要 选项 ， 用 于 绝对 位 置 的 x 和 y 及 相 
对 位 置 的 relx、rely、relwidth 和 relheight。 还 有 width 和 anchor 选项 ， 其 中 anchor 默认 值 为 NE。 
【示例 9-5】 
创建 文件 tk_place.py， 输 入 如 下 代码 : 


01 from tkinter import * 

02 “# 创建 主 窗口 

03 root = Tk() 

04 “# 绝对 位 置 

05 ”Button (root，text=" 绝 对 位 置 ") .place (x=20，y=10) 

06 “# 相对 位 置 

07 ”Button (root，text=" 相 对 位 置 ") .place (relx=0.8,rely=0.2, relwidth=0.5,width=10,anchor=NE) 
08 “# 消息 循环 

09 root.mainloop() 

运行 结果 如 图 9.6 所 示 。 




















图 9.6 人 东 _place.py 运行 结果 
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9.2.4 Tkinter 事件 及 回调 





Tkinter 事件 及 回调 其 实 就 是 处 理 控件 的 功能 ， 比 如 处 理 按键 Ctrl+C 的 复制 功能 ， 响 应 鼠标 的 
单 击 功 能 等 。 


处 理 控件 相关 功能 较 简 单 的 方式 是 使 用 指令 绑 定 ， 通 常 在 控件 中 都 会 有 一 个 command 参数 ， 
该 参数 便 是 用 来 调用 回调 函数 。 首 先 定义 回调 函数 ， 一 般 如 下 : 
def fun callback() : 
# 用 于 处 理 某 功 能 的 代码 比如 : content_text .event_generate("<<Cut>>") 
定义 好 回调 函数 后 ,通过 控件 中 的 command 参数 选项 调用 即 可 。 比 如 想 在 Button 控件 中 调用 
如 上 定义 的 fun_callback()， 代 码 如 下 : 


Button (root，text=" 点 击 "，command=fun_callback) 


这 样 单 击 时 就 可 以 执行 fun_callback0 函 数 中 的 代码 了 。 
对 于 不 同 的 事件 ，Tkinter 提供 一 种 名 为 bind() 事 件 绑 定 机 制 ， 其 语法 格式 如 下 : 


widget.bind(event，handler，add=None) 


参数 event 表示 事件 对 象 实例 ，handler 表示 新 的 处 理 器 ，add 可 用 来 处 理 回调 。 
【示例 9-6】 
举例 解释 ， 新 建文 件 tk_bind.py， 输 入 如 下 代码 : 


01 from tkinter import * 

02 from tkinter import messagebox as tmb 

03 “# 创建 主 窗口 

04 root = Tk() 

05 “# 标签 包 管理 器 

06 ”Label (root，text=' 单 击 如 下 框架 ， 你 能 获取 到 你 单 击 的 x 轴 和 y 轴 的 位 置 ') .pack () 
07 “# 定义 回调 函数 





09 def callback(event) : 

10 # 用 户 弹 窗 显示 信息 

Ee tmb .showinfo (title=' 信 息 '，message=" 你 单 击 的 x 轴 和 y 轴 的 位 置 : "+ str(event.x)+"," 
+ 12 str(event.y)+"") 

12 “## 创建 框架 

13 frame = Frame(root, bg='#f£9900', width=250, height=150) 

14 “# 绑 定 事件 ， 调 取 回 调 函数 

15 frame.bind("<Button-1>", callback) 

16 frame.pack() 

17  # 消息 循环 

18 root.mainloop() 


运行 tk_bind.py， 得 到 结果 如 图 9.7 所 示 。 





图 9.7 tk_bind.py 运行 结果 
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9.3 Tkinter 实战 


根据 本 章 所 学 的 内 容 , 我 们 通过 创建 一 个 简单 的 文本 编辑 器 来 学 习 一 下 GUI 编程 的 流程 操作 。 
先 从 基本 的 主 窗口 创建 开始 ， 一 步 一 步 扩展 ， 直 到 完成 一 个 简单 可 用 的 文本 编辑 器 。 


9.3:1 





创建 主 窗口 


【示例 9-7】 
在 9.1.3 节 中 已 经 讲解 了 主 窗口 , 这 里 对 root 对 象 添加 几 个 方法 ， 比 如 标题 、 框 体 是 否 可 调节 、 





主 框 初始 大 小 等 。 


from tkinter import * 

# 创建 主 窗口 

root = Tk() 

# 设 置 窗口 标题 
root.title('tkeditor') 

# 设置 窗口 大 小 可 调 性 ， 分 别 表示 x, y 方向 的 可 变性 ，0, 0 表示 窗口 不 可 变 
root.resizable (0, 0) 

# 设 定 初始 窗口 大 小 
root.geometry('450x300') 
# 这 里 用 于 添加 我 们 的 代码 

# 消息 循环 


Foot .mainloop () 


保存 代码 为 tkeditor0.py， 运 行 结果 如 图 9.8 所 示 。 


9.3.2 








EE | 




















9.8” 主 窗口 


添加 菜单 栏 及 菜单 选项 


在 实际 使 用 的 GUI 桌面 程序 中 几乎 都 提供 了 菜单 栏 ， 它 通过 有 效 编排 菜单 选项 ， 从 而 使 界面 
不 至 于 混乱 。 在 Tkinter 模块 中 ， 可 通过 Menu 控件 添加 菜单 栏 ， 该 菜单 栏 一 般 出 现在 应 用 程序 界 
面 的 项 部 ， 并 且 对 于 终端 用 户 是 可 见 的 ， 然 后 添加 菜单 项 供用 户 单 击 执行 。 
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在 界面 项 部 添加 菜单 栏 的 方式 是 my_menu = Menu(parent **options)。 下 面 我 们 接 上 述 代码 继 


续 处 理 。 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
了 
12 
13 
14 
15 
16 
ky 
18 
9 
20 
21 
22 
23 
24 
25 
26 
27 
28 
吨 9 
30 


from tkinter import * 

# 创建 主 窗口 

root = Tk() 

# 设 置 窗口 标题 

root.title('tkeditor') 

# 设置 窗口 大 小 可 调 性 ， 分 别 表示 x, y 方向 的 可 变性 ，0,0 表示 窗口 不 可 变 
#root .resizable(0，0) 

# 设 定 初始 窗口 大 小 

root.geometry('450x300') 

# 这 里 用 于 添加 我 们 的 代码 # 这 里 用 于 添加 我 们 的 代码 

menu bar = Menu(root) 

# 文件 菜单 项 

file menu = Menu (menu bar, tearoff=0) 

menu bar.add cascade (label=' 文 件 '，menu=file menu) 
# 编辑 菜单 项 

edit menu = Menu (menu_ bar, tearoff=0) 

menu bar.add cascade (label=' 编 辑 '，menu=edit menu) 
# 视图 菜单 项 

View menu = Menu (menu bar, tearoff=0) 

menu bar.add_cascade (label=' 视 图 '，menu=view_menu) 
# 关于 菜单 项 

about_menu = Menu (menu_ bar, tearoff=0) 

menu bar.add cascade (Label=' 关 于 '，menu=about_menu) 
# 帮助 菜单 项 

help menu = Menu (menu bar, tearoff=0) 

menu bar.add _ cascade (label=' 帮 助 '，menu=help_menu) 


root.config (menu=menu bar) 
# 消息 循环 


root.mainloop () 


将 上 述 代 码 保存 为 tkeditorl.py， 运 行 结 果 如 图 9.9 所 示 。 





\ tkeditor ey )| 


文件 编 加 视图 关于 帮助 | 























图 9.9 tkeditorl .py 运行 结果 


在 tkeditorl.py 中 ， 主 要 是 菜单 栏 及 菜单 选项 的 创建 ， 任 何 一 个 子 控件 的 创建 都 是 以 父 控件 作 
为 第 一 参数 。 同 时 在 代码 中 可 以 看 到 参数 tearoff， 它 用 于 有 下 拉 菜 单 时 设 定 菜单 选项 上 一 条 虚线 ， 
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当 tearof 伍 1， 就 会 存在 这 条 下 拉 虚 线 , 否则 没有 。 函 数 add_cascade() 用 来 添加 菜单 项 ， 其 参数 label 
设 定 菜单 项 文本 ，menu 指定 菜单 项 。 


操作 系统 的 不 同 可 能 会 导致 设置 tearoff-1 没有 效果 。 





9.3.3 ”添加 下 拉 菜 单 


下 面 我 们 将 在 每 一 个 独立 的 菜单 项 中 添加 下 拉 菜 单 ， 主 要 通过 add_command() 方 法 进行 添加 ， 
添加 格式 为 : 菜单 项 .add_command(label= 菜 单 标 签名 称 , accelerator= 快 捷 键 ,compound= 位 置 , image= 
图 片 对 象 , underline= 索 引 , command= 返 回 函数 )。 根 据 该 格式 添加 etkeditorl.py 的 file_menu 的 菜单 
代码 如 下 : 

file menu.add command(label=" 新 建 ", accelerator='Ctrl+N', compound='left', image=image_new, 
underline=0) 

对 于 add_command() 的 参数 ，label 表示 标签 即 GUI 界面 上 呈现 出 的 名 称 。accelerator 表示 加 
速 器 ， 用 于 指定 一 个 字符 串 , 通常 是 键盘 快捷 键 ， 指定 为 加 速 器 的 字符 串 会 出 现在 菜单 项 的 文本 旁 
边 。compound 为 菜单 项 指定 一 个 复合 选项 ， 如 compound='leff', image=new_icon， 这 意味 着 新 建 图 
标 将 出 现在 新 建 菜单 的 左边 。 而 这 里 new_icon 为 我 们 存储 和 引用 的 图 标 对 象 ， 该 对 象 一 般 是 模块 
PIL 某 类 的 实例 ， 在 第 12 章 中 将 单独 对 该 模块 进行 讲解 ， 这 里 不 做 该 参数 引用 操作 。underline 指 
定 需要 强调 的 菜单 文本 字符 索引 ， 索 引 从 0 开始 ， 如 果 underline=1， 就 表示 强调 文本 第 二 个 字符 。 
command 参数 为 单 击 标签 时 执行 的 函数 。 


键盘 快捷 键 无 法 自动 创建 执行 命令 ， 需 要 自己 手动 设置 ， 在 后 面 我 们 会 对 其 进行 讨论 。 





创建 tkeditor2.py， 输 入 如 下 代码 : 


01 from tkinter import * 

02 ”# 创建 主 窗口 

03 root = Tk() 

04 ”# 设 置 窗口 标题 

05 root.title('tkeditor') 

06 ”# 设置 窗口 大 小 可 调 性 ， 分 别 表示 x, y 方向 的 可 变性 ，0,0 表示 窗口 不 可 变 

07 #root .resizable(0，0) 

08 “# 设 定 初始 窗口 大 小 

09 root.geometry('450x300') 

10 “# 这 里 用 于 添加 我 们 的 代码 # 这 里 用 于 添加 我 们 的 代码 

11 menu bar = Menu(root) 

12 ”# 文件 菜单 项 

3 file menu = Menu (menu bar, tearoff=0) 

14 menu bar.add cascade (label=' 文 件 '，menu=file menu) 

15 “# 通过 add_command () 方法 添加 下 拉 菜 单 

16 

17 file menu.add_command(label=" 新 建 "，compound='left'，accelerator='Ctrl+N'，underline=0) 
18 ”file_menu.add_command(label=" 打 开 "，compound='left'，accelerator='Ctrl+0'，underline=0) 
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19 
20 
2L 
22 
23 
24 
25 
26 
27 
28 
之 
30 
3 
32 
33 
34 
35 
36 
三 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
5 
52 
53 
54 


在 该 
方法 进行 


file menu.add separator() 

file menu.add command(label=" 保 存 ", compound='left', accelerator='Ctrl+S', underline=0) 
另存 为 ..."，accelerator='Ctrl+Shift+S', underline=1) 

重 命名 "，accelerator='Ctrl+Shift+R',，underline=0) 


file menu.add command(labe. 
file menu.add command(label= 
file menu.add separator() 

file menu.add command(label=" 关 闭 ",，accelerator='Alt+F4', underline=0) 








# 编辑 菜单 项 

edit menu = Menu (menu bar, tearoff=0) 

menu bar.add cascade (label=' 编 辑 '，menu=edit menu) 

edit menu.add command(label=" 返 回 ") 

edit menu.add command(label=" 重 做 ") 

edit_menu.add_command (1abel=" 剪 切 "，accelerator="Ctrl+X") 
edit_menu.add_command(label=" 复 制 "，accelerator="Ctrl+C") 
edit_menu.add_command (label=" 粘 贴 "，accelerator="Ctrl+V") 
edit_menu.add_command( label=" 删 除 "，accelerator="del") 
edit_menu.add_command(1abel=" 选 定 所 有 "，accelerator="Ctrl+Rn) 
edit_menu.add_command( label=" 查 找 "，accelerator="Ctrl+F") 


# 视图 菜单 项 
View menu = Menu (menu bar, tearoff=0) 
menu_bar.add_cascade (label=' 视 图 '，menu=view_menu) 


# 关于 菜单 项 

about_menu = Menu (menu bar, tearoff=0) 
menu_bar.add _ cascade (label=' 关 于 '，menu=about_menu) 
about_menu.add_command (label=" 关 于 我 ") 

# 帮助 菜单 项 

help menu = Menu (menu bar, tearoff=0) 

menu bar.add cascade (label=' 帮 助 '，menu=help_menu) 
help_menu.add_command (label=" 帮 助 索引 ") 
help_menu.add command(label=" 许 可 ") 


root.config (menu=menu bar) 
# 消息 循环 


root.mainloop() 








代码 中 ,我 们 对 每 一 个 菜单 项 都 添加 了 下 拉 菜 单 , 每 个 下 拉 菜 单 都 是 通过 add_command() 
添加 的 ， 同 时 我 们 也 发 现 可 以 通过 方法 add_separator() 添 加 横 线 ， 该 函数 没有 参数 。 运 行 
代码 ， 结 果 如 图 9.10 所 示 。 
\ tkeditor El > 
Es 
新 建 ctrl 
打开 Ctrlt0 
保存 Cirlts 


另存 为 .CtrlShiftts 
重 命名 。 CtrltShifttR 


关闭 ttF4 











图 9.10 ”tkeditor2.py 运行 结果 
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9.3.4 实现 简单 记事 本 


从 tkeditor2.py 运行 结果 上 看 ， 我 们 是 无 法 触发 标签 及 快捷 键 效果 的 ， 在 主 窗口 内 无 法 输入 文 
本 ， 接 下 来 的 任务 就 是 如 何 添加 执行 命令 及 文本 输入 。 

Tkinter 模块 中 文 的 本 控件 带 有 一 些 方便 内 置 的 功能 以 处 理 常用 的 文本 相关 函数 ， 我 们 将 利用 
这 些 功 能 实现 文本 编辑 的 常见 功能 ,比如 使 用 Ctrl +X、Ctrl+ C 和 Ctrl + V 组 合 键 执行 文本 区 域 中 
的 剪 切 、 复 制 和 粘贴 功能 。 

实现 这 些 功 能 之 前 ， 首 先 要 创建 文本 控件 ， 可 通过 Text0 类 进行 创建 。 


content _ text = Text(root, wrap="'word') 
content text.pack (expand='yes', fill='both') 


对 于 TcVTk 通用 控件 一 般 可 以 使 用 如 下 命令 触发 无 外 部 刺激 的 事件 : 


widget .event generate(sequence, **kw) 

如 果 想 创建 一 个 剪 切 事件 ， 可 以 使 用 如 下 代码 : 

content text.event generate("<<Cut>>") 

接 下 来 ， 我 们 根据 该 情况 完成 标签 触发 及 快捷 键 的 功能 。 创 建 tkeditor3.py， 输 入 如 下 代码 : 


01 import os 

02 from tkinter import * 

03 from tkinter import filedialog as ft 
04 from tkinter import messagebox as tmb 





05 “ 创建 主 窗口 
06 root = Tk() 
07 “# 设 置 窗口 标题 


08 root.title('tkeditor') 

09 “## 设置 窗口 大 小 可 调 性 ， 分 别 表示 x, y 方向 的 可 变性 ，0,0 表示 窗口 不 可 变 
10 #root.resizable(0, 0) 

11 ”# 设 定 初始 窗口 大 小 

12 root.geometry('450x300') 

13 “# 这 里 用 于 添加 我 们 的 代码 # 这 里 用 于 添加 我 们 的 代码 

14 menu bar = Menu(root) 

15 

16 “# 添加 文本 控件 及 滚动 条 控件 

17 content text = Text (root, wrap='word') 

18 content text.pack(expand='yes', fill='both') 

19 content text.tag configure('active line', background='#f1f1f1') 
20 

21 

22 scroll bar = Scrollbar (content text) 

23 content text.configure(yscrollcommand=scrol] bar.set) 

24 scroll bar.config(comand=content text.yview) 

25 scroll bar.pack(side='right', fill='y') 


26 

27 “# 创建 文件 

28 def new_text (event=None) : 
29 root.title("Untitled") 
30 global file name 

3 file name = None 


32 
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图 9.11 ”tkeditor3.py 运行 结果 


re 模块 一 一 正则 表达 式 


正则 表达 式 是 用 于 处 理 字符 串 的 强大 工具 ， 拥 有 自己 独特 的 语法 及 独立 的 处 理 引 擎 。 它 是 计 
算 机 语言 常会 涉及 的 内 容 ， 不 同 语言 使 用 不 同 的 方式 进行 调用 。 在 Python 中 ， 使 用 re 模块 处 理 正 
则 表达 式 。 

本 章 主要 涉及 的 知识 点 有 : 

@ 正则 表达 式 的 介绍 : 主要 从 其 概念 和 构成 进行 讲解 ， 从 而 能 够 正确 使 用 正则 表达 式 进 行 日 常 

应 用 。 
@ re 模块 介绍 : 通过 re 模块 的 基础 应 用 掌握 Python 处 理 字符 串 的 方法 。 
”常用 正则 表达 式 的 使 用 : 目的 是 为 了 熟练 使 用 正则 表达 式 进行 字符 囊 处 理 。 


10.1 正则 表达 式 简介 


本 节 首 先 介绍 正则 表达 式 的 基本 概念 ， 理 解 其 概念 是 学 习 正则 表达 式 构成 的 基础 ， 然 后 通过 
对 正则 表达 式 的 构成 进行 讲解 ， 熟 练 掌握 基本 正则 表达 式 的 规则 。 


10.1.1 正则 表达 式 概 念 


正则 表达 式 作 为 计算 机 科学 的 一 个 概念 ， 通 常用 来 检索 、 替 换 那 些 符合 某 个 规则 的 文本 。 正 
则 表达 式 是 对 字符 串 操 作 的 一 补 池 各 公式， 用 事先 定义 好 的 规则 字符 串 对 字符 串 进 行 过 滤 罗 辑 处 
理 。 

就 其 本 质 而 言 ， 正 则 表达 式 是 一 种 小 型 的 、 高 度 专业 化 的 编程 语言 ， 在 Python 中 通过 re 模 
块 实现 。 使 用 该 语言 , 可 以 给 匹配 的 相应 字符 串 集 指定 规则 , 该 字符 串 集 可 能 包含 英文 语句 、 e-mail 
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地 址 、shell 命令 或 任何 你 想 搞定 的 东西 ， 然 后 使 用 re 模块 以 某 些 方式 修改 或 分 割 字符 串 。 

正则 表达 式 模式 被 编译 成 一 系列 的 字 节 码 ， 然 后 由 用 C 语言 编写 的 匹配 引擎 执行 。 从 某 种 程 
度 来 说 ， 使 用 正则 表达 式 比 直接 写 Python 字符 串 处 理 代码 要 快 。 注 意 ， 并 非 所 有 字符 串 处 理 都 能 
用 正则 表达 式 完 成 ,即使 有 些 处 理 可 以 使 用 正则 表达 式 完成 ,这样 也 会 使 表达 式 变 得 异常 复杂 ,可 
读 性 变 差 ， 遇 到 这 种 情况 时 ， 建 议 编写 Python 代码 进行 处 理 反 而 更 好 。 毕 竟 一 段 Python 代码 比 一 
个 精巧 的 正则 表达 式 要 更 容易 理解 。 


10.1.2 ”正则 表达 式 构成 


正则 表达 式 由 两 种 字符 构成 :一 种 是 在 正则 表达 式 中 具有 特殊 意义 的 “元 字符 ”; 另 一 种 是 
普通 字符 。 字 符 可 以 是 一 个 字符 , 如 “^”, 也 可 以 是 一 个 字符 序列 ， 如 “\w”。 表 10.1 列 出 Python 
支持 的 正则 表达 式 元 字符 及 语法 。 

表 10.1 正则 表达 式 元 字符 及 语法 


语法 说 明 表达 式 实例 实例 匹配 的 字符 串 
- 般 字符 匹配 自身 


匹配 除了 换行 符 “m” 以 外 的 任 | a.c aac/abc/acc 
意 一 个 字符 , 在 DOTALL 模式 中 
也 能 匹配 换行 符 
上 转 义 字符 ， 使 后 一 个 字符 串 改 变 | ab\. 
原来 意思 ， 比 如 字符 串 中 有 “*” 
需要 匹配 , 可 以 使 用 “\*” 或 “[*]” 
[ea eb" | 
于 [0123456789] 
[\ude00-\u9gfa5] 匹配 任意 一 个 汉字 
字 
他 任意 一 个 字符 




















[sa 可 匹配 除 小 写字 母 外 任意 一 个 字符 
\d 匹配 任意 一 个 数字 ， 相 当 于 [0-9] | adc alc/a0c/a2c 
\D 匹配 任意 一 个 非 数 字 字 符 ， 相 当 | aDe abc/adc/aec 
Wd 的 取 反 ， 即 [^0~9] 
's 匹配 任意 空白 字符 ， 相 当 于 | asb ab/la b 
[wmv] 
‘Ss 匹配 任意 非 空白 字符 ， 相 当 \ 的 | a\Sc abc/abbc 
取 反 ， 相 当 于 [ArmNftvv] 
Ww 匹配 任意 一 个 字母 或 数字 或 下 画 | avwc aac/a0c/a c 





线 ， 相 当 于 [a-zA-Z0-9 ] 
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( 续 表 ) 
语法 说 明 表达 式 实 例 实例 匹配 的 字符 串 
WwW 匹配 任意 一 个 非 字母 或 数字 或 下 | a\We a*c/a$c 
画 线 ，\w 的 取 反 ， 相 当 于 
[ca-zA-Z0-9 ] 
a 匹配 前 一 个 字符 0 次 或 无 限 次 abc* ab/abc/abcccce 
地 匹配 前 一 个 字符 1 次 或 无 限 次 abc+ abc/abcc/abcccccccc 
? 匹配 前 一 个 字符 0 次 或 1 次 abc? ab/abc 
fm 匹配 前 一 个 字符 m 次 
{m,n} 匹配 前 一 个 字符 m 到 n 次 , m 和 | ab{12}c abc/abbc 
n 可 以 省 略 ， 省 略 m， 则 匹配 0 
到 nm 次 ， 省 略 n， 则 匹配 m 到 无 
限 次 
小 匹配 字符 串 的 开始 位 置 ， ea 
任何 字符 
任何 字符 
W 仅 匹配 字符 串 的 开始 位 置 [aate ee 
vb 匹配 w 和 W 之 间 
B Wb 的 取 反 
加 仅 匹 配 字符 串 的 结束 位 置 
| 子 表达 式 之 间 “ 或 ”关系 匹配 
人 9 匹配 分 组 
(?P<name>...) 匹配 分 组 ， 除 了 原 有 编号 外 再 指 人 abcabc 
定 一 个 额外 的 别名 
\<number> 匹配 引用 编号 为 <number> 的 分 组 | (\d)abc\1 labcl/3abc3 
到 字符 串 中 
(?P=name) 匹配 引用 别名 为 <name> 的 分 组 | (?P<id>\d)abc(?P=id) “| 2abc2/4abc4 
到 字符 串 中 
Ca) 匹配 不 分 组 的 (.…), 用 于 食用 “|? | (?:abc){2} 
或 后 接 数量 词 
QiLmsux) iLmsux 的 每 一 个 字符 代表 一 个 匹 | (?i)abc 


(2#...) 
Q?(id/name)yes-pattemn|no- 
patterm) 





配 模式 ， 只 能 用 于 字符 串 的 开始 
位 置 ， 可 选 多 个 





# 后 的 内 容 将 作为 注释 被 忽略 
匹配 编号 为 id 或 别名 为 name 的 | (\d)abc(?(1)\dlabc) labc2/abcabc 


组 , 需要 匹配 yes-pattem, 否则 需 
要 匹配 no-pattem 
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从 表 10.1 可 以 看 出 只 是 单一 针对 字符 串 匹 配 , 可 在 实际 应 用 中 是 多 种 单一 匹配 的 组 合 , 因此 ， 
建议 读者 认真 掌握 ， 便 于 进行 Python 开发 时 能 顺手 拿 来 。 对 于 读者 而 言 介绍 这 么 多 语法 其 实 是 很 
枯燥 的 ， 接 下 来 将 结合 Python re 模块 进行 讲解 ， 以 便于 熟悉 消化 。 


10.2 _re 模块 的 简单 应 用 


本 节 主 要 介绍 re 模块 的 常用 功能 函数 ， 然 后 通过 这 些 函 数 调 用 正则 表达 式 元 字符 及 语法 处 理 
字符 串 。 

Python 自 1.5 版 本 起 就 增加 了 re 模块 , 它 提供 了 如 Perl 风格 一 样 的 正则 表达 式 模 式 。 我 们 可 
以 在 Python 文件 下 的 Lib 目录 中 找到 re.py 文件 ， 即 为 re 模块 。 

因为 re 模块 是 内 嵌 在 Python 中 ， 所 以 可 以 直接 使 用 import 导入 。 查 看 re 版 本 及 属性 方法 函 
数 的 方式 如 下 : 

>>> import re 

>>>re._ version __ 

2201" 

>>>re. all __ 

[ "match", "search", "sub", "subn", "split", "findall", "compile", "purge", "template", 
"escape", "I", "L", "M", "S", "X", "U", "IGNORECASE", "LOCALE", "MULTILINE", "DOTALL", 
"VERBOSE", "UNICODE", "error" ] 





从 上 述 代 码 中 可 以 看 出 ，re 模块 涉及 的 函数 并 不 多 ， 从 其 功能 概况 来 说 : 一 是 查找 文本 中 的 
模式 ， 二 是 编译 表达 式 ， 三 是 多 层 匹 配 。 同 时 可 以 看 出 它 定义 了 一 些 常量 。 

查找 文本 中 的 模式 主要 使 用 search() 函 数 ， 该 函数 有 pattem、string、flags 3 个 参数 。pattern 表 
示 编 译 时 用 的 表达 式 字 符 串 ; string 表示 用 于 匹配 的 字符 串 ， flags 表示 编译 标志 位 ， 用 于 修改 正则 
表达 式 的 匹配 方式 ， 如 是 否 区 分 大 小 写 、 多 行 匹 配 等 ， 其 默认 值 为 0。 常 用 的 flags 如 表 10.2 所 示 。 


表 10.2 常用 flags 及 其 含义 





























标志 含义 

re.S(DOTALL) 使 匹配 包括 换行 在 内 的 所 有 字符 

re (IGNORECASE) “| 使 匹配 对 大 小 写 不 敏感 

reL (LOCALE) 做 本 地 化 识别 〈locale-aware) 匹配 等 

re.M(MULTILINE) 多 行 匹 配 ， 影 响 ^ 和 $ 

re.X(VERBOSE) 该 标志 通过 给 予 更 灵活 的 格式 以 便 将 正则 表达 式 写 得 更 易于 理解 
reU 根据 Unicode 字符 集 解析 字符 ， 这 个 标志 影响 w、\W、\b、\B 





re.search() 函 数 通 过 取 模式 和 要 扫描 的 文本 作为 输入 ， 返 回 匹配 对 象 ， 如 果 未 找到 匹配 模式 ， 
则 返回 None。 


In [1]: import re 


In [2] : pattern = "模块 " 
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In [3] : string = 


"如 何 学 习 re 模块 ? 多 多 实践 操作 !" 


In [4]: match = re.search (pattern, string) 


In [5]: match.start() 


Out [5]: 6 


In [6] : match.end() 


Out[6]: 8 


In [7]: string[6 
out [7] : "模块 


In [8] : match 


:8] 


Out [8] : <_sre.SRE Match object; span=(6，8)，match=' 模 块 '> 


从 上 面 的 代码 可 以 看 出 ，match 为 返回 的 匹配 对 象 ， 它 包含 了 有 关 匹 配 性 质 的 信息 ， 如 使 用 


配 的 正则 表达 式 ， 模 式 在 原 : 


方法 。start() 方 法 返回 
字符 串 ，span() 方 法 返 


符 串 中 出 现 的 位 置 ， 具 有 start)、end0、group0、span(0)、groups() 
匹配 开始 的 位 置 ，end0 方 法 返回 匹配 结束 的 位 置 ，group0 方 法 返回 被 匹配 








回 一 个 包含 匹配 开始， 结束 ) 位 置 的 元 组 ，groups() 方 法 返回 一 个 包含 正 


表达 式 中 所 有 小 组 字符 串 的 元 组 ， 从 1 到 所 含 的 小 组 号 ， 通 常 groups() 不 需要 参数 ， 返 回 一 个 
组 ， 元 组 中 的 元 就 是 正则 表达 式 中 定义 的 组 。 除 此 之 外 ， 还 有 一 个 group(n, m) 方 法 ， 该 方法 返 
组 号 为 nm 所 匹配 的 字符 串 ， 如 果 组 号 不 存在 ， 就 报 indexError 错误 。 


In [9]: print(re 
123abc456 


.Search(" ([0-9]*) ([a-z]*) ([0-9]*)",'123abc456') .group (0) ) 


In [10]: print (re.search("([0-9]*) ([a-z]*) ([0-9]*)",'123abc456') .group (1)) 


123 


In [11]: print (re.search("([0-9]*) ([a-z]*) ([0-9]*)",'123abc456') .group (2)) 


abc 


In [12]: print (re.search("([0-9]*) ([a-z]*) ([0-9]*)",'123abc456') .group (3)) 


456 


In [13]: print (re.search("([0-9]*) ([a-z]*) ([0-9]*)",'123abc456') .group () ) 


123abc456 


In [14]: print (re.search("([0-9]*) ([a-z]*) ([0-9]*)",'123abc456') .groups()) 

('123', 'abc', '456') 

编译 正则 表达 式 使 用 compile0 函 数 ， 该 函数 返回 一 个 对 和 象 模 式 ， 有 两 个 参数 分 别 为 pattern、 
flags=0， 其 含义 与 search() 函 数 中 介绍 的 一 样 。 通 过 将 正则 表达 式 编译 成 正则 表达 式 对 象 可 以 提供 














执行 效率 。 


In [15] : string =" 如 何 学 习 re 模块? 如何 学 习 flask 开发 ， 如 何 学 习 Python 开发 进行 大 数 


“所 开发 2 


In [16] : pattern 


In [17] : match = 


= re.compile(' 如 何 ') 


pattern. search (string) 


匹 


等 
的 
则 
元 


回 
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In [18] : print (match.group () ) 
如 何 


In[16] 通 过 compile() 编 译 " 如 何 ` 字 符 串 模式 , 通常 编译 的 这 些 表 达 式 是 程序 频繁 使 用 的 表达 式 ， 
这 样 编译 起 来 会 更 为 高 效 , 同时 也 会 开销 一 些 缓存 。 使 用 已 编译 的 表达 式 还 有 一 个 好 处 是 , 在 加 载 
模块 时 就 编译 所 有 表达 式 ， 而 不 是 当 程序 相应 用 户 的 动作 时 才 进 行 编译 。 

函数 match0 用 在 文本 字符 串 的 开始 位 置 匹配 。 


In [18] : Print (re.match('cn','cnwww.akaros.cn') .group () ) 
cn 


In [19] : print (re.match('cn','Cnwww.akaros.com', re.1).group()) 
cn 


该 方法 并 非 完全 匹配 ， 比 如 In[28]patterm “cn? 只 要 匹配 首次 出 现 的 'cn? 就 行 ， 无 须 在 乎 其 后 
是 否 跟 有 字符 串 。 如 果 想 全 局 匹配 ， 可 以 在 表达 式 末尾 加 上 边界 匹配 符 '$"。 





可 以 使 用 函数 findadll0) 进 行 遍历 匹配 ， 获 取 字 符 串 中 所 有 匹配 的 字符 串 ， 返 回 一 个 列表 。 它 
不 同 于 search()，search() 用 于 查找 字符 串 的 单个 匹配 ， 而 findall0 函 数 返 回 所 有 匹配 而 不 重 登 的 子 
字符 串 ， 参 数 与 search() 一 样 。 


In [20] : string ='abbaaabbbbaaaaabbbaababcdabcdabdebababddfedf' 
In [21] : pattern = "ab' 
In [22] : match = re.findall(pattern, string) 


In [23]: print (match) 
el 


函数 finditer0 使 用 方式 与 findall0) 差 不 多 ， 也 是 3 个 参数 ， 返 回 的 是 一 个 迭代 器 ， 它 将 生成 
Match 实例 ， 不 像 findall0) 返 回 的 是 字符 串 。 


In [24]: match = re.finditer (pattern, string) 


In [25]: print (match) 
<callable iterator object at 0x03DF5FF0> 


In [26]: for i in match: 
print (i) 
print (i.group()) 
print (i.span()) 
<_sre.SRE Match object; span=(0, 2), match='ab'> 
ab 
(0, 2) 
<_sre.SRE Match object; span=(5, 7), match='ab'> 
ab 
(5, 7) 
<_sre.SRE Match object; span=(14, 16), match="'ab'> 
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ab 

(14, 16) 

<_sre.SRE Match object; span=(19, 21), match='ab'> 
ab 

(19, 21) 

<_sre.SRE Match object; span=(21, 23), match='ab'> 
ab 

(23 

<_sre.SRE Match object; span=(25, 27), match='ab'> 
ab 

(25, 27) 

<_ sre.SRE Match object; span=(29, 31), match='ab'> 
ab 

(29, 31) 

<_sre.SRE Match object; span=(34, 36), match='ab'> 
ab 

(34, 36) 

<_sre.SRE Match object; span=(36, 38), match='ab'> 
ab 

(36, 38) 


除了 上 述 介绍 的 查找 、 编 译 、 匹 配 ， 还 可 以 利用 re 模块 的 split() 方 法 进行 分 割 ，sub() 和 subn() 
进行 替换 。 

re.splitO 按 照 能 够 匹配 的 子 字符 串 将 需 匹 配 的 字符 串 进行 分 割 并 返回 列表 ， 参 数 有 pattern、 
string 等 。 


In [27] : print (re.split('\d+','wolmen2shi3hao4peng5you6')) 
['wo', 'men', 'shi', 'hao', 'peng', 'you', ''] 


re.Sub0 使 用 pattern 替换 string 中 每 一 个 匹配 的 子 串 后 返回 替换 后 的 字符 串 。 格 式 为 
re.sub(pattern, repl, string, count)。re.subn() 返 回 替换 次 数 。 
In [28]: string = "学 无 止 镜 " 


In [29] : print (re.sub(r'\s+', '-', string)) 
学 -无 - 止 - 镜 


In [30]: print (re.subn('[1-2]',' 学 习 ', '123456^%$#@!lqaz2wsx3edc4rfv')) 
(' 学 习 学 习 3456^%$#8! 学 习 qaz 学 习 wsx3edc4rfv'，4) 


关于 re 模块 的 应 用 就 介绍 到 这 里 了 。 事 实 上 正则 表达 式 远 不 止 这 么 简单 ， 不 过 掌握 以 上 方法 
后 ,一般 字 符 串 正则 处 理 基本 都 能 解决 。 


10.3 和 常用 正则 表达 式 


前 面 介绍 re.compile() 函 数 时 讲 过 ， 使 用 该 函数 预先 编译 好 的 正则 表达 式 来 提高 执行 效率 ， 这 
预先 编译 好 的 正则 表达 式 一 般 适 于 常用 的 正则 表达 式 。 
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在 正则 表达 式 元 字符 及 语法 中 ， 我 们 以 表格 的 形式 列举 了 正则 表达 式 的 基本 格式 及 其 语法 ， 
本 节 讲 述 的 常用 正则 表达 式 就 是 在 元 字符 及 语法 的 基础 上 进行 扩展 应 用 。 


10.3.1 常用 数字 表达 式 的 校 验 


数字 表达 式 校 验 主要 针对 文本 中 出 现 的 数字 进行 正则 表达 式 的 匹配 ， 下 面 我 们 将 讲解 一 些 常 
用 的 表达 式 ， 并 使 用 re 模块 对 其 进行 相关 处 理 。 

1. ^[0-9]*$ 

从 表 10.1 可 以 看 出 ，' 人 匹配 字符 串 的 开始 位 置 ,，?[0-9] 匹配 0~9 中 任意 一 个 数字 ，** 匹 配 前 
一 个 字符 0 次 或 无 限 次 ，”$ 匹 配 字符 的 结束 位 置 。 综 合 起 来 说 ， 该 表达 式 是 用 于 匹配 数字 的 ， 该 
数字 可 以 是 2， 也 可 以 是 22222222222222222222。 

【示例 10-1】 


In [1]: import re 








In [2]: num = re.search('^[0-9]*$', '123') 


In [3]: print(num.group()) 


2. Md{n}$ 
与 上 面 示例 同 理 操作 ， 该 表达 式 匹 配 的 是 n 位 数字 。 
【示例 10-2】 


In [4]: num = re.findall('^\d{3}$','224') 


In [4]: num 
out [4] : ['224'] 


3. A\d{n,}$ 

该 表达 式 匹配 的 至 少 n 位 数字 。 

【示例 10-3】 

In [5]: num = re.findall('^\d{3,}$', '4353') 


In [6] : num 
Out[6]: ['4353'] 


4.\d{m,n}$ 
该 表达 式 匹配 m~n 的 数字 ，n 大 于 m。 
【示例 10-4】 


In [7]: num = re.findall('^\d{3,5}$', '4353') 





In [8]: num 
Out[8]: ['4353°'] 
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5. ^([1-9][0-9]”)+(.[0-9]{1,2})?$ 
该 表达 式 匹 配 最 多 带 两 位 小 数 点 的 数字 。^([1-9][0-9]*)$ 匹 配 非 零 开头 的 数字 ,^(.[0-9]{1,2})?$ 
匹配 最 多 带 两 位 小 数 点 的 数字 。 
【示例 10-5】 


In [9]: num = re.findall('^([1-9] [0-9]*)+(.[0-9] {1;2})?$', '234.34") 


In [10] : num 
Out [10]: [('234', '.34')] 


通过 '() 分 组 得 到 的 返回 值 是 不 同 的 。 下 一 例 进行 演示 。 





6. ^[0-9]+(.[0-9]{1,3})?$ 
该 表达 式 匹配 1~3 为 小 数 的 正 实数 。 
【示例 10-6】 


In [11]: num = re.findall('^[0-9]+(. [0-9] {1,3})?$', '233.23') 


In [12]: num 
Out [12]: ['.23'] 


In [13]: num = re.findall('^([0-9])+(.[0-9]{1,3})?$', '233.23') 


In [14]: num 
Out [14]: [('3', '.23')] 


In[11] 与 In[13] 不 同 的 地 方 就 是 加 上 '()， 得 到 的 结果 也 有 所 不 同 。 

7. ^[1-9N\d*$ 

该 表达 式 匹配 非 零 的 正 整 数 .注意 * 匹 配 的 是 前 一 个 字符 , 而 且 匹 配 非 零 正 整数 的 表达 式 可 以 
有 多 种 表现 形式 ， 如 和 \+?[1-9][0-9]*$。 

【示例 10-7】 

In [15]: num = re.findall('^[1-9]\d*$', '344') 


In [16]: num 
Out[16]: ['344'] 


In [17]: num = re.findall('^\+?[1-9] [0-9]*$', '344') 


In [18] : num 
Out [18]: ["344"] 


常用 数字 表达 式 有 很 多 ， 这 里 就 介绍 这 些 ， 只 要 熟练 掌握 正则 表达 的 元 字符 及 语法 ， 对 解决 
更 复杂 的 处 理 都 不 是 问题 。 
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10.3.2 ”常用 字符 表达 式 的 校 验 


在 文本 分 析 中 ， 常 常会 涉及 字符 表达 式 的 处 理 ， 比 如 提取 某 些 汉字 ， 对 长 度 为 多 少 的 字符 进 
行 删除 等 操作 。 下 面 我 们 将 以 一 些 基本 的 字符 表达 式 进行 阐述 。 


1. 汉字 的 匹配 





在 Python 中 匹配 需 转化 utf8 编码 ， 在 Python 3.x 无 须 考虑 这 个 问题 。 汉 字 的 编码 范围 为 
\u4e00-\u9fa5。 如 果 想 匹配 1~3 个 汉字 的 字符 串 ， 那 该 如 何 操作 呢 ? 
【示例 10-8】 





2. 英文 和 数字 的 匹配 
英文 和 数字 的 匹配 可 以 使 用 ^[A-Za-z0-9]+$。 如 果 我 们 想 要 抽取 某 些 字符 串 文 本 的 英文 数字 ， 


那 又 该 如 何 操作 呢 ? 
【示例 10-9】 
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3. 中 文 、 英 文 、 数 字 和 某 些 字符 的 匹配 
匹配 由 数字 、26 个 英文 字母 或 下 画 线 组 成 的 字符 串 ， 可 以 使 用 和 w+$。 匹 配 中 文 、 英 文 、 数 字 
(包括 下 画 线 ) ， 可 以 使 用 ^\u4E00-\u9FA5A-Za-z0-9_]+$。 匹 配 中 文 、 英 文 、 数 字 (不 包括 下 画 
线 ) ， 可 以 使 用 ^[\u4E00-\u9FA5A-Za-z0-9]+$。 匹 配 可 以 输入 含有 ^%&",:=2?SV" 等 字符 的 表达 式 ， 可 
以 使 用 [^%&c',:=2S\x22]+。 

【示例 10-10】 


In [16] : test ="Wo name is 良 葱 落 ， 可 以 这 样 拼 : Liang_cong_luo, 我 的 手机 号 是 86-1 
: 23123XXX" 





In [17]: result = re.findall('[\u4E00-\u9FASA-2a-2z0-9 ]+',test) 

In [18]: result 

out [18] : ['wo'，'name'，'is'，"' 良 葱 落 '， ' 可 以 这 样 拼 '， "Liang_cong_luo'， ' 我 的 手 
机 号 是 86'!，'123123XXX'] 


从 代码 结果 可 以 看 出 ， 它 对 文本 的 处 理 是 以 空格 作为 分 隔 符 的 ， 根 据 匹 配 规则 可 以 得 知 “-” 
是 无 法 匹配 ， 因 此 返回 的 结果 不 会 出 现 。 


10.3.3 ”特殊 需求 表达 式 的 校 验 


在 网 站 注册 页 面 上 常常 会 出 现 输入 用 户 名 、 密 码 及 Email 等 ， 当 输入 的 邮箱 不 含 “@” 符 号 ， 


网 页 就 会 提示 输入 Email 地 址 错误 ， 这 个 处 理 过 程 其 实 就 是 一 个 正则 表达 式 的 处 理 。 我 们 对 这 些 特 
殊 需 求 的 表达 式 校 验 进行 一 个 总 结 。 
1. Email 地 址 


Email 处 理 的 表达 式 使 用 方式 为 Aw+([-+.]\w+)*GNw+([-.]\w+)sANw+([-. w+)*S$ 。 我 们 可 以 使 用 
该 表达 式 验证 输入 的 Email 是 否 正确 。 
【示例 10-11】 


In [1]: import re 

In [2]: test = "rontom@gmail .com" 

In [3]: testl = "rontomgmail .com" 

In [4]: test2 = "rontom@gmail" 

In [5]: result = re.match('^\w+([-+.] \w+)*@\w+([-—.]\w+)*\.\wt([-.] \w+)*$',test) 
In [6] : print(result.group()) 

rontom@gmail .com 


In [7]: result = re.match('~\wt([-+.]\wt)*@\wt([—.]\Wwt)*\.\wt([-.]\w+)*$', test1 
Eh 


In [8]: print(result.group()) 
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AttributeError Traceback (most recent call last) 
<ipython-input-9-666d063f295f> in <module>() 
----> 1 print(result.group()) 


AttributeError: 'NoneType' object has no attribute 'group' 


In [9]: result = re.match('^\w+([-+.]\w+)*@\w+([-.] \wt)*\.\wt([-.] \wt) *$', test 
: 2) 


In [13]: print (result.group()) 


AttributeError Traceback (most recent call last) 
<ipython-input-13-666d063f295f> in <module>() 
----> 1 print(result.group () ) 


AttributeError: 'NoneType' object has no attribute 'grouPp' 

从 上 述 的 代码 中 就 可 以 看 出 ， 对 于 In[3] 和 In[4]， 由 于 它 不 是 标准 的 Email， 不 匹配 正则 表达 
式 规 则 入 w+([-+.] 人 w+)*@\w+([-.]Ww+)*Aw+([-.]\w+)*$ ， 因 此 执行 它 会 报 AttributeError 错误 。 

2. 域名 

我 们 所 看 到 的 baidu.com、akaros.cn 就 是 所 谓 的 域名 ， 判 断 是 否 是 一 个 有 效 的 域名 的 正则 表达 
式 是 (?i)^([a-z0-9]+(-[a-z0-9]+)*\.)+[a-z]{2,}$ ， 而 如 果 想 在 一 段 长 文本 中 找到 有 效 的 域名 ， 则 可 使 
用 Gi)\b([a-z0-9]+(-[a-z0-9]+)*\.)+[a-z]{2,}\b。 

【示例 10-12】 


In [14]: test = "akaros.cn" 
In [15]: result = re.match('(?i)^([a-z0-9]+(-[a-z0-9]+)*\.)+[a-z]{2,}$',test) 


In [16]: print (result.group()) 
akaros .cn 


3. 手机 号 码 


中 国 的 手机 号 码 为 11 位 ， 并 且 一 般 是 以 13、14、15、17、18 等 开头 ， 因 此 可 以 确定 的 是 开 
头 为 1， 第 二 位 为 3、4、5、7、8， 其 表达 式 可 为 1[3458]\d{9}。 
【示例 10-13】 


In [16] : test = "12315632143 13213213211 54234432521 14345433333 182345345654" 





In [17] : result = re.findall('1[3458] \\d{9}', test) 


In [18] : result 
out [18] : ['13213213211', "14345433333"， '18234534565'] 


4. 身份 证 号 

一 般 身份 证 号 码 为 15 位 或 18 位 , 15 位 是 以 xxxxxxYYMMddxxx 形式 出 现 , 前 六 位 表示 地 区 ， 
YY 表示 年 份 ，MM 表示 月 份 ，dd 表示 天 数 ，xx 表示 顺序 码 ， 最 后 的 x 表示 校 验 码 ， 其 正则 表达 
式 为 ^[1-9]dfs}df2}(O[1-9DIGLOILI12))X([o-2][1-9])10l20l3031DNdf21$; 18 位 是 以 xxoooxYYYYMMddxxxx 
形式 出 现 ， 它 的 年 份 是 四 位 ， 顺 序 码 是 三 位 ， 效 验 码 可 以 取 x 或 X， 其 正则 表达 式 为 
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^[1-9]\d{5}(18|19|([23]\d)Nqd{2}((0[1-9DI(10l11|12)(([0-2][1-9]) |10|20|30|31)\qd{3}[0-9Xx]$ 。 综 合 》 
(^[1-9]\d{5}(18|19|([23]\d)Nd{2}((O[1-9])I(10|11|12)X([0-21[1-9])|10|20|30l/31)\d{3}[0-9Xx]$)I(^[1-9Nd{ 
5}\d{2}((O[1-9])I(10|11|12))(([0-2][1-9])|10|20|30|31)\d {2}8)。 
【示例 10-14】 
In [19]: r = r'^([1-9]\ad{5}[12] \a{3} (0[1-9]11[012]) (0[1-9] | [12] [0-9] 13[01]) \da{3 
}[0-9xx])$" 


In [20] : result = re.findall(r, '43052419020202000x') 


In [21] : result 
Out [21]: [('43052419020202000x', '02', "02")] 


5. 邮政 编码 
中 国 的 邮政 编码 是 6 位 ， 其 正则 表达 式 为 [1-9]N\d{5}(?N\d)。 
【示例 10-15】 


In [22]: test = "12343 234532 34533 532345" 





In [23]: result = re.findall('[1-9]\d{5} (?!\d)',test) 

In [24]: result 

out [24] : ['234532', '532345'] 

6. 空白 正则 表达 式 

在 文本 处 理 中 常常 需要 进行 删除 空白 行 、 删 除 行 首尾 空白 等 操作 。 空 白 行 的 正则 表达 式 为 
\n\s*\r， 首 尾 空白 字符 的 正则 表达 式 为 ^\s*|\s*$ 或 (^\s*)|(s*$)。 

【示例 10-16】 

In [25]: rest = " 好 好 学 习 正则 表达 式 对 你 进行 某 些 数据 正确 与 否 分 析 显 得 

.…..: 很 重要 的 
In [26]: result = re.sub('\s*|\s*','',rest) 


In [27]: result 
out [27] : ' 好 好 学 习 正 则 表达 式 对 你 进行 某 些 数据 正确 与 否 分 析 显 得 很 重要 的 ' 


常用 正则 表达 式 就 介绍 到 这 里 ， 读 者 可 以 根据 自己 的 开发 需要 进行 相应 的 正则 表达 式 总 结 ， 
并 收集 起 来 便于 后 续 的 开发 引用 。 


第 11 章 
os 模块 与 shutil 模块 一 一 文件 处 理 


os 模块 和 shutil 模块 是 处 理 文件 /目录 的 主要 方式 。 特 别 是 os 模块 ， 写 代码 时 经 常会 用 到 ， 该 
模块 提供 了 一 种 使 用 操作 系统 相关 功能 的 便捷 方式 。shutil 模块 是 一 种 高 级 的 文件 /目录 操作 工具 ， 
它 的 强大 之 处 在 于 对 文件 的 复制 及 删除 操作 。 

本 章 主 要 涉及 的 知识 点 有 : 

日 ”os 模块 : 通过 学 习 os 模块 相关 函数 ， 掌 握 文件 的 基本 处 理 。 


eshutil 模块 : 通过 学 习 shutil 模块 相关 函数 ， 掌 握 文件 和 目录 的 复制 、 移 动 、 删 除 、 压 缩 、 解 
压 等 高 级 处 理 。 


11.1 os 模块 


os 模块 提供 一 些 便捷 功能 使 用 操作 系统 ， 比 如 读 取 某 目录 下 的 文件 ， 在 命令 行 查看 某 路 径 下 
文件 的 所 有 内 容 等 。 本 节 我 们 将 对 os 模块 下 常用 的 函数 或 属性 等 内 容 依 次 进行 讲解 。 


11.1.1 获取 系统 类 型 


对 代码 进行 兼容 性 开发 以 适应 不 同 的 操作 系统 ， 通 过 系统 类 型 进行 判断 可 以 轻松 解决 。 


In [1] : import os 


In [2] : os.name 
Out [2] : "nt" 


Out[2]mt' 名 称 依赖 于 操作 系统 ，nt 代表 window，posix 代表 linux。 有 如 下 名 称 已 经 注册 在 os 
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模块 中 : 'posix'"、'nt'、'ce'"、'java'。 因 此 可 以 轻易 地 根据 os.name 判断 操作 系统 。 


In [3]: if os.name == "nt': 

print (' 你 的 操作 系统 是 window! ') 
: elif os.name =='posix': 

: print (' 你 的 操作 系统 是 1inux') 

: else: 


Print (' 你 的 操作 系统 是 其 他 ' ) 








你 的 操作 系统 是 window! 
如 果 想 知道 操作 系统 更 详细 的 信息 ， 可 以 使 用 sys.platform。 


In [5]: sys.platform 
Out[5]: 'win32' 


11.1.2 ”获取 系统 环境 


模块 environ 属性 用 于 对 系统 环境 变量 进行 相关 设置 ， 需 要 时 可 以 调用 该 选项 。 


In [1] : import os 


In [2]: os .environ 

Out [2] : environ({'ALLUSERSPROFILE': 'C:\\ProgramData'， 'APPDATA': 'C:\\Users\\Aad 
ministrator\\AppData\\Roaming', 'COMMONPROGRAMFILES': 'C:\\Program Files (x86)\\ 
Common Files', 'COMMONPROGRAMFILES (X86)': 'C:\\Program Files (x86)\\Common Files 
', "COMMONPROGRAMW6432': 'C:\\Program Files\\Common Files', 'COMPUTERNAME': 'MS- 
20161230PPWG', 'COMSPEC': 'C:\\Windows\\system32\\cmd.exe', 'FP_NO_HOST CHECK': 
'NO', 'HOMEDRIVE': 'C:', 'HOMEPATH': '\\Users\\Administrator', 'LOCALAPPDATA': ' 
C:\\Users\\Administrator\\AppData\\Local', 'LOGONSERVER': '\\\\MS-20161230PPWG', 
'NLTK_DATA': 'E:\\nltk data', 'NUMBER OF PROCESSORS': '4', 'NVTOOLSEXT PATH'; ' 
C:\\Program Files\\NVIDIA Corporation\\NvToolsExt\\', '0S': 'Windows_NT', 'PATH' 
/ /省略 部 分 代码 

14.0\\Common7\\Tools\\', 'WINDIR': 'C:\\Windows', 'WINDOWS TRACING FLAGS': '3', 
"WINDOWS_TRACING LOGFILE': 'C:\\BVTBin\\Tests\\installpackage\\csilogfile.log', 
'_DFX_ INSTALL UNSIGNED DRIVER': '1'}) 


In [3]: env = os.environ 


In [4]: for e in env: 
print (e) 





ALLUSERSPROFILE 

APPDATA 

COMMONPROGRAMFILES 
COMMONPROGRAMFILES (X86) 

/ /省略 部 分 代码 

WINDIR 

WINDOWS_TRACING FLAGS 
WINDOWS_TRACING LOGFILE 
_DFX_INSTALL UNSIGNED DRIVER 


In [5]: env["PRATH"] 
out [5] : 'C:\\Python36-32\\Scripts;C:\\Python36-32\\python3;C:\\Ruby23-x64\\bin; 
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C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\Syste 
m32\\WindowsPowerShell\\v1.0\\;C:\\Users\\Administrator\\.dnx\\bin;C:\\Program F 
iles\\Microsoft DNX\\Dnvm\\;C:\\Program Files (x86)\\nodejs\\;C:\\Program Files\ 
\Git\\cmd;C:\\Program Files\\Microsoft SQL Server\\130\\Tools\\Binn\\;C:\\Progra 
m Files\\MongoDB\\Server\\3.4\\bin;C:\\Anaconda2;C:\\Anaconda2\\Scripts;C:\\Anac 
onda2\\Library\\bin;C:\\Program Files (x86)\\Google\\Cloud SDK\\google-cloud-sdk 
\\bin;C:\\Program Files (x86)\\Windows Kits\\8.1\\Windows Performance Toolkit\\; 
C:\\Program Files\\Microsoft SQL Server\\110\\Tools\\Binn\\;C:\\Program Files (x 
86) \\NVIDIA Corporation\\PhysxX\\Common;C:\\Python36-32\\Scripts\\;C:\\Python36-3 
2\\;C:\\Users\\Administrator\\AppData\\Roaming\\npm;c:\\python36-32\\l1ib\\site-p 
ackages\\pywin32_ system32' 


从 上 面 的 代码 可 以 看 出 os.environ 返回 系统 环境 变量 ,是 字典 的 形式 。 如 果 想 要 获取 具体 环境 
变量 的 属性 值 ， 可 以 直接 索引 输出 。 也 可 以 使 用 方法 getenv0) 获 取 具 体 环境 变量 的 属性 值 ， 如 
env['PATH']， 通 过 如 下 操作 能 得 到 同样 的 结果 : 


In [12]: os.getenv('PATH') 

Out [12]: 'C:\\Python36-32\\Scripts;C:\\Python36-32\\python3;C:\\Ruby23-x64\\bin; 
C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\Syste 
m32\\WindowsPowerShell\\v1.0\\;C:\\Users\\Administrator\\.dnx\\bin;C:\\Program F 
iles\\Microsoft DNX\\Dnvm\\;C:\\Program Files (x86)\\nodejs\\;C:\\Program Files\ 
\Git\\cmd;C:\\Program Files\\Microsoft SQL Server\\130\\Tools\\Binn\\;C:\\Progra 
m Files\\MongoDB\\Server\\3.4\\bin;C:\\Anaconda2;C:\\Anaconda2\\Scripts;C:\\Anac 
onda2\\Library\\bin;C:\\Program Files (x86)\\Google\\Cloud SDK\\google-cloud-sdk 
\\bin;C:\\Program Files (x86)\\Windows Kits\\8.1\\Windows Performance Toolkit\\; 
C:\\Program Files\\Microsoft SQL Server\\110\\Tools\\Binn\\;C:\\Program Files (x 
86) \\NVIDIA Corporation\\PhysX\\Common;C:\\Python36-32\\Scripts\\;C:\\Python36-3 
2\\;C:\\Users\\Administrator\\AppData\\Roaming\\npm;c:\\python36-32\\lib\\site-p 
ackages\\pywin32_system32' 


11.1.3 ”执行 系统 命令 


使 用 os 模块 system() 方 法 就 可 以 执行 shell 命 令 , 正常 执行 会 返回 0。 使 用 格式 是 os.system("'bash 


command")。 


In [14]: os.system('ping www.akaros.cn ') 


正在 Ping www.akaros.cn [39.108.166.54] 具有 32 字 节 的 数据 : 
来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =38ms TTL=48 
来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =80ms TTL=48 
来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =4lms TTL=48 
来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =72ms TTL=48 


39.108.166.54 的 Ping 统计 信息 : 
数据 包 : 已 发 送 = 4， 已 接收 = 4， 丢失 = 0 (0% 丢失 ) ， 


往返 行程 的 估计 时 间 (以 毫秒 为 单位 ) : 
最 短 = 38ms， 最 长 = 80ms， 平 均 = 57ms 
out [14]: 0 


In [15] : os.popen ('ping www.akaros.cn') .read() 
out [15] : '\n 正在 Ping www.akaros.cn [39.108.166.54] 具有 32 字 节 的 数据 :\n 来 自 39 
.108.166.54 的 回复 : 字 节 =32 时 间 =46ms TTL=48\n 来 自 39.108.166.54 的 回复 : 字 节 =32 
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时 间 =50ms TTL=48\n 来 自 39.108.166.54 的 回复 : 字 节 =32 时 间 =75ms TTI=48\n 来 自 39. 
108.166.54 的 回复 : 字 节 =32 时 间 =74ms TTL=48\n\n39.108.166.54 的 Ping 统计 信息 : \n 

数据 包 : 已 发 送 = 4， 已 接收 = 4， 丢 失 = 0 (0% 丢失 ) ，\n 往返 行程 的 估计 时 间 (以 
毫秒 为 单位 ) :\n 最短 = 46ms, 最 长 = 75ms， 平 均 = 6lms\n' 


在 非 控制 台 编写 时 ，system() 只 会 调用 系统 命令 而 不 会 执行 ， 执 行 结果 可 通过 popen() 函 数 
返回 file 对 象 读 取 获 得 。 





11.1.4 ”操作 目录 及 文件 


使 用 os 模块 操作 目录 和 文件 是 Python 开发 常见 的 功能 之 一 。 熟练 掌握 目录 和 文件 操作 对 于 我 
们 做 Python 开发 显得 尤为 重要 。 
1. 获取 当前 目录 
使 用 os.getcwdO) 函 数 获取 当前 目录 路 径 ， 即 当前 Python 脚本 工作 的 目录 路 径 ， 该 函数 没有 参 
数 。 
【示例 11-1】 
In [1] : import os 


In [2] : os.getcwd() 
out [2] : 'C:N\NUsers\NRdministrator' 


2. 更 改 目录 
使 用 os.chdir0 函 数 更 改 当前 脚本 目录 ， 相 当 于 shell 命令 中 的 cd， 从 函数 名 很 容易 理解 它 需要 
目标 目录 的 路 径 作 为 参数 ， 使 用 方法 为 os.chdir(' 目 标 路 径 )。 示 例 代码 如 下 : 
【示例 11-2】 


In [3] : os.chdir('E:') 


In [4] : os.getcwd() 
out [4] : 'E:\\' 


从 代码 可 以 看 出 目录 由 “C:NUsers\Administrator” 转 到 “E:N”。 

3. 列举 目录 下 的 所 有 文件 

通过 os.listdir(path) 函 数 可 以 获得 path 下 的 所 有 文件 ， 返 回 是 列表 。 
【示例 11-3】 


In [5]: os.listdir('E:\\testdir') 
Out[5]: ['index.html', 'one.txt', 'os.py'] 


window 路 径 模 式 是 双 和 斜 杠 \\"， 不 同 于 Linux。 
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4. 创建 及 删除 目录 
使 用 os.mkdir(path) 函 数 创建 单 级 目录 , 使 用 os.makedirs(path) 函 数 创建 多 级 目录 。 使 用 os.rmdir() 


删除 单 级 空 目录 ， 若 目录 不 为 空 则 无 法 删除 ， 参 数 为 需要 删除 的 目录 名 称 。 使 用 osremovedirs0) 删 
除 多 级 空 目录 ， 参 数 为 需要 删除 的 目录 名 称 或 路 径 。 


【示例 11-4】 
In [6]: os.mkdir('./dirl') 


In [7]: os.makedirs('./dirl/dir2/dir3') 


In [8]: os.listdir('dirl') 

out [8] : ['dir2'] 

In [9]: os.rmdir('dirl') 

OSsError Traceback (most recent call last) 


<ipython-input-17-fc3e3e614220> in <module>() 
====2 1 OS.mndir(t" dtr") 


OSError: [WinError 145] 目录 不 是 空 的 。: 'dirl' 
In [10]: os.removedirs('./dirl/dir2/dir3') 
In [11]: os.listdir('./dirl') 


FileNotFoundError Traceback (most recent call last) 
<ipython-input-19-9abfbda7d558> in <module>() 

----> 1 os.listdir('./dir1') 

FileNotFoundError: [WinError 3] 系统 找 不 到 指定 的 路 径 。: './dirl' 


In [12]: os.mkdir('dirl') 


In [13]: os.rmdir('dirl') 


从 代码 In [9] 可 以 看 出 ， 因 为 目录 dirl 下 有 子 目录 ， 所 以 无 法 直接 删除 。 通 过 In[10] 对 目录 层 


级 进行 删除 ，dirl 目录 不 存在 ， 这 时 无 法 查 到 目录 dirl 。 


5. 重 命 名 目录 或 文件 
使 用 osrename() 函 数 重 命名 目录 或 文件 ， 使 用 方法 为 os.rename(" 文 件 或 目录 名 称 "," 要 修改 成 


的 文件 或 目录 名 称 ")。 


【示例 11-5】 


In [14]: os.chdir('e:\\testdir') 


In [15]: 
Out [15] : 


os.getcwd() 
E:\\testdir' 






In [16]: os.1istdir('.') 
Out[16]: ['index.html', 'one.txt', 'os.py'] 


In [17]: os.rename('one.txt', 'two.txt') 
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In [18] : os.listdir('.') 
out [18] : ['index.html', 'os.py', 'two.txt'] 


6. 获取 绝对 路 径 

使 用 os.path.abspath(path) 函数 获取 path 的 绝对 路 径 ， 一 般 情况 下 此 处 指 相对 路 径 。 
【示例 11-6】 

In [32]: os.path.abspath('.') 


Out [32] : 'E:\\testdir' 


In [33] : os.path.abspath('..') 
Out [33] : 'E:\\' 


7. 路 径 分 解 与 组 合 

通过 os.path.split(pathb) 函 数 将 路 径 分 解 为 文件 夹 和 文件 名 ， 返 回 的 是 一 个 二 元 组 。 芳 路 径 字 符 
串 最 后 一 个 字符 是 \， 则 只 有 文件 夹 部 分 有 值 ， 若 路 径 字 符 串 中 均 无 \， 则 只 有 文件 名 部 分 有 值 ， 若 
路 径 字符 串 有 \ 且 不 在 最 后 ， 则 文件 夹 和 文件 名 均 有 值 ， 且 返回 的 文件 夹 结果 不 包含 \。 
os.path.join(path1,path2,…) 函 数 将 path 进行 组 合 ， 若 其 中 有 绝对 路 径 ， 则 之 前 的 path 将 被 删除 。 上 县 
体例 子 演示 如 下 : 

【示例 11-7】 
In [35] : os.path.split ('D:\\flaskProject\\mergePic\\runserver.py') 


Out [35] : ('D:\\flaskProject\\mergePic', 'runserver.py') 


In [36] : os.path.split ('D:\\flaskProject\\mergePic\\') 
Out [36] : ('D:\\flaskProject\\mergePic', '') 


In [37] : os.path.split('D:\\flaskProject\\mergePic') 
Out [37]: ('D:\\flaskProject', 'mergePic') 


In [38] : os.path.join('D:\\flaskProject', 'mergePic') 
out [38] : 'D:\\flaskProject\\mergePic' 


In [39] : os.path.join('D:\\flaskProject','mergePic', '‘'hello.py') 
Out [39] : "D:\\flaskProject\\mergePic\\hello.pPY" 


In [40] : os.path.join('D:\\flaskproject', 'mergePic', 'D:\\flaskProject\\mergePi 
Em 
out [40] : 'D:\\flaskProject\\mergePicl' 


8. 返回 目录 和 文件 名 
通过 os.path.dirname(path) 函 数 可 以 获取 path 中 的 文件 夹 部 分 ， 而 且 结果 不 包含 \。 通 过 
os.path.basename(path) 函 数 可 以 获取 path 中 的 文件 名 。 
【示例 11-8】 
In [41]: os.path.dirname('D:\\flaskProject\\mergePic\\hello.py') 


out [41] : 'D:\\flaskProject\\mergePic' 


In [42] : os.path.dirname('.') 
Out ta2)s 2 
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In [43]: os.path.dirname('D:\\flaskProject\\mergePic\\') 
Out [43] : 'D:\\flaskProject\\mergePic' 


In [44] : os.path.dirname('D:\\flaskProject\\mergePic') 
Out [44] : 'D:\\flaskProject' 


In [45] : os.path.basename ('D:\\flaskProject\\mergePic\\hello.py') 
out [45] : 'hello.py’ 


In [46]: os.path.basename ('.') 
Out[46]: '." 


In [47]: os.path.basename ('D:\\flaskProject\\mergePic\\') 
Out[47]: '' 


In [48]: os.path.basename ('D:\\flaskProject\\mergePic') 
Out [48] : 'mergePic'" 


9. 判断 及 获取 文件 或 文件 夹 信息 

通过 函数 os.path.exists(patb) 判 断 文件 或 文件 夹 是 否 存在 ， 如 果 存 在 就 返回 True， 如 果 不 存在 
就 返回 False。 通 过 函数 os.path.isfile(path) 判 断路 径 是 否 为 一 个 文件 。 通 过 函数 os.path.isdir(path) 判 
断路 径 是 否 为 一 个 目录 。 通 过 函数 os.path.isabs(pathb) 判 断路 径 是 否 是 绝对 路 径 。 通 过 函数 
os.path.getsize(path) 获 取 文 件 或 文件 夹 大 小 。 通 过 函数 os.path.getctime(path) 获 取 文 件 或 文件 夹 的 创 
建 时 间 。os.path.getatime(path) 获 取 文 件 或 文件 夹 的 最 后 访问 时 间 。 通 过 函数 os.path.getmtime(path) 
获取 文件 或 文件 夹 的 最 后 修改 时 间 。 这 些 获取 时 间 的 函数 返回 值 都 是 从 新 纪元 到 访问 时 的 秒 数 。 


新 纪元 是 指 从 协调 世界 时 1970 年 1 月 1 日 0 时 0 分 0 秒 起 到 现在 的 总 秒 数 ， 不 包括 头 秒 。 
正 值 表 示 1970 年 以 后 ， 负 值 则 表示 1970 年 以 前 。 





【示例 11-9】 


In [49]: os.listdir('D:\\flaskProject\\mergePic') 
Out [49] : 

[9 

'.gitignore', 

"14D; 

'PicMerge', 

'requirements.txt', 

'runserver.py', 

"uploadr'] 


In [50] : os.path.exists('D:\\flaskProject\\mergePic\runserver.py') 
Out [50] : False 


In [51]: os.path.exists('D:\\flaskProject\\mergePic\\runserver.py') 
Out[51]: True 


In [52] : os.path.exists('D:\\flaskProject\\mergePic\\Runserver.py') 
Out [52] : True 
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10. 一 些 表现 形式 参数 


在 os 模块 中 定义 了 一 些 文件 、 路 径 ， 对 应 在 不 同 操作 系统 中 的 表现 形式 〈 参 数 ) 。 
【示例 11-10】 
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Out [69]: '." 


In [70]: os.pathsep 
Out[70]: ';" 


In [71]: os.linesep 
Out[71]: '\r\n' 


上 面 介绍 的 只 是 os 模块 较为 常用 的 方法 或 属性 ， 如 果 读 者 想 要 了 解 更 多 的 内 容 ， 请 查看 其 源 
代码 或 文档 。 接 下 来 将 介绍 shutil 模块 。 


11.2 ”shutil 模块 


相 比 os 模块 ,shutil 模块 用 于 文件 和 目录 的 高 级 处 理 , 它 提供 了 文件 复制 、 移动、 删除 、 压 缩 、 
解压 等 功能 。 


11.2.1 ”复制 文件 


shutil 模块 主要 用 于 复制 文件 。 在 控制 台 上 演示 这 些 函数 的 使 用 方法 ， 特 别 在 涉及 权限 的 问题 
时 ， 在 Linux 系统 下 直接 操作 可 以 更 为 直观 地 查看 效果 。 

1. shutil.copyfileobj(file1, file2) 

该 函数 将 filel 的 内 容 覆 盖 给 file2， 参 数 file1、file2 表示 打开 的 文件 对 象 ， 其 中 file2 必须 是 
可 写 入 的 。 

【示例 11-11】 

In [1]: import shutil 

In [2]: fl = open('filel.txt',encoding='utf-8') 


In [3]: f2 = open('file2.txt','w',encoding="'utf-8') 


In [4]: shutil.copyfileobj (f1,£2) 


2. shutil.copyfile(file1, file2) 
该 函数 无 须 打 开 文 件 ， 直 接 用 文件 名 进行 覆盖 。 事 实 上 从 该 函数 源 代 码 就 可 以 看 出 它 调 用 的 
是 shutil.copyfileobj() 函 数 ， 返 回 file2。 
【示例 11-12】 


In [5]: shutil.copyfile('filel.txt', 'file3.txt') 
Out [5] : 'file3.txt" 


3. shutil.copymode(file1, file2) 
该 函数 仅 复制 文件 权限 ， 不 更 改 文件 内 容 、 组 和 用 户 ， 无 返回 对 象 。 
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【示例 11-13】 


In [6] : shutil.copymode('filel.txt', "file3.txt'") 


4. shutil.copystat(file1, file2) 

该 函数 用 于 复制 文件 的 所 有 状态 信息 ， 包 括 权限 、 组 、 用 户 和 时 间 等 ， 无 返回 对 象 。 
【示例 11-14】 

In [7]: shutil.copystat('filel.txt', 'file3.txt') 

5. shutil.copy(file1, file2) 

该 函数 复制 文件 的 内 容 及 权限 ， 相 当 于 先 执行 copyfile()， 再 执行 copymode()， 返 回 file2。 
【示例 11-15】 


In [11] : shutil.copy('filel.txt' "file3.txt') 
out [11] : "file3.txt' 


6. shutil.copy2(file1, file2) 
该 函数 复制 文件 的 内 容 及 文件 的 所 有 状态 信息 ， 相 当 于 先 执 行 copyfile0， 再 执行 copystat()， 
返回 file2 。 
【示例 11-16】 


In [12]: shutil.copy2('filel.txt','file3.txt') 
Out [12] : 'file3.txt' 


7. shutil.copytree(src,dst,symlinks=False,ignore=None,copy_function=copy2， 
ignore_dangling_symlinks=False) 
该 函数 递归 地 复制 文件 内 容 及 状态 信息 。 
【示例 11-17】 


In [18]: 1s 
驱动 器 C 中 的 卷 是 system 
卷 的 序列 号 是 2496-FC22 


C:\Users\Administrator\os-shutil 的 目录 


2018/04/23 17:20 <DIR> 
2018/04/23 17:20 <DIR> 


2018/04/23 17:06 S56 £1416e1. txt 

2018/04/23 17:12 0 file2.txt 

2018/04/23 17:06 56 file3.txt 
个 文 作 112 字 节 


2 个 目录 17, 306,734, 592 可 用 字 节 


En L229 ed 
C:\Users\Administrator 


In [20]: shutil.copytree('os-shutil','os-shutil-cp') 
Out [20] : 'os-shutil-cp' 
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shutil.copy0、shutil.copy2() 等 都 无 法 复制 文件 的 所 有 元 数据 。 





11.2.2 ”移动 文件 


使 用 shutiLmove(src, dst copy_function=copy2) 函 数 递 归 地 移动 文件 或 重 命名 并 返回 目标 。 如 果 
目标 是 现 有 目录 ，src 就 在 当前 目录 移动 ; 如 果 目 标 已 经 存在 且 不 是 目录 ， 它 可 能 就 会 被 覆盖 。 
【示例 11-18】 


In [21] : import shutil 
In [22] : import os 


In [23]: os.listdir('.') 
out [23] : ['filel.txt', 'file2.txt', 'file3.txt'] 


In [24]: shutil.move('filel.txt', 'file4.txt') 
out [24] : 'file4.txt' 


In [25]: os.listdir('.') 
out [25] : ['file2.txt', 'file3.txt', 'file4.txt'] 


11.2.3” 读 取 压 缩 及 归档 压缩 文件 


shutil.make_archive(base_name, format[, root_dir[, base_dir[, verbose[, dry_run[, owner[, group[, lo 
gger]]]]]]) 函 数 用 于 创建 归档 文件 并 返回 其 归档 后 的 名 称 。base_name 是 需要 创建 的 文件 名 称 ， 包 
括 路 径 、 减 去 任何 特定 格式 的 扩展 名 。format 可 选项 有 zip、tar、bztar 等 ， 可 以 通过 
shutil.get_archive_formats() 获 取 支 持 的 归档 格式 的 列表 。root_dir 为 归档 文档 的 目录 。 
【示例 11-19】 
In [26]: 1s . 


驱动 器 C 中 的 卷 是 system 
卷 的 序列 号 是 2496-FC22 


C:\Users\Administrator\os-shutil 的 目录 


2018/04/24 09:29 <DIR> 
2018/04/24 09:29 <DIR> 


2018/04/23 17:12 0 file2.txt 

2018/04/23 17:06 56 file3.txt 

2018/04/23 17:06 56 file4.txt 
3 文件 112 字 节 


2 个 目录 17, 314,975,744 可 用 字 节 


In [27]: shutil.make archive('.','zip','.') 
out [27] : 'C:\\Users\\Administrator\\os-shutil.zip' 
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11.2.4 ”解压 文件 


可 以 通过 函数 shutil.unpack_archive(filename[,extract_dir[,formal]]) 分 拆 归档 .filename 为 归档 的 
完整 路 径 ，extract_dir 为 解压 归档 的 目标 目录 名 称 ， 如 果 未 提供 ， 就 表示 使 用 当前 目录 进行 解压 。 
格式 是 文件 存档 格式 、zip、tar 或 其 他 格式 。 

【示例 11-20】 


In [28]: os.listdir('e:\\testdir') 
Out[28]: ['index.html', 'os.py', 'two.txt'] 


In [33]: shutil.make archive('.','zip','.') 
Out[33]: 'C:\\Users\\Administrator\\os-shutil.zip' 


In [34]: shutil.unpack archive('C:\\Users\\Administrator\\os-shutil.zip','e:\\t 


: estdir') 


In [35]: os.listdir('e:\\testdir') 
Out[35]: ['file2.txt', 'file3.txt', 'file4.txt', 'index.html', 'os.py', 'two.txt 


小 | 


关于 shutil 模块 就 介绍 到 这 里 。 当 然 ， 除 了 上 述 功能 ，shutil 模块 还 有 像 获 取 终 端 窗口 大 小 、 
引发 同文 件 异 常 之 类 的 功能 ， 读 者 在 需要 时 可 以 查阅 官方 文档 。 


11.3 ”文件 处 理 实战 


本 节 我 们 利用 前 面 所 学 的 知识 创建 一 个 小 应 用 ， 该 应 用 在 图 片 识别 处 理 中 经 常会 涉及 ， 比 如 
用 于 训练 图 片 库 ， 首先 删除 该 图 片 库 中 的 非 图 片 文件 ,然后 对 这 些 图 片 按 一 定 规律 进行 命名 ， 并 创 
建 图 片 的 索引 ， 便 于 图 像 识别 程序 能 够 根据 索引 文件 进行 处 理 。 

【示例 11-21】 

创建 一 个 文件 dir_ images.py， 输 入 如 下 代码 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
下 下 
了 之 
13 
14 
15 


import os 
import shutil 
import time 


# 可 选 的 图 片 列表 
IMG = ['jpg', 'jpeg', "gif', 'png'] 


# 重 命名 图 片 及 删除 非 图 片 文件 
def rename image (path): 
global i # 定义 全 局 变量 


if not os.path.isdir(path) and not os.path.isfile (path) : # 判断 是 否 是 目录 或 文件 
return False 


if os.path.isfile(path) : # 如 果 是 文件 
file path = os.path.split(Path) ## 分 割 出 目录 与 文件 名 
lists = file path[1] .split('.') ## 分 割 出 文件 与 文件 扩展 名 
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16 file ext = lists[-1] ## 取出 后 缘 名 
17 if file ext in IMG: # 判断 该 后 缀 名 是 否 是 图 片 的 后 缀 名 
18 os.rename (path, file path[0] + "/" + lists[0] + str(i) + '.' + file ext) 
19 主 +=1 
20 else: 
21 print (file path) 
22 os.remove (os.path.join(file path[0], file path[1])) 
23 elif os.path.isdir (path) : ## 如 果 是 目录 
24 for x in os.listdir(path): ## 递归 重 命名 程序 
25 rename image (os.path.join(path, x)) 
26 
27 “# 创建 文本 索引 文件 
28 def create index (Path) : 
29 if not os.path.isdir(path) and not os.path.isfile (path) : # 判断 是 否 是 目录 或 文件 
30 return False 
3 if os.path.isdir (path): 
32 lists = os.listdir (Path) 
3 with open(os.path.join(path, ‘'index.txt'), 'a+', encoding='utf-8') as f: 
34 for item in lists: 
35 f.write(item) 
36 f.write("\n") 
33 
38 ”# 压缩 目录 下 的 文件 
39 def archive_dir(Path) : 
40 shutil.make archive (path, 'zip') 
41 
42 。” 间 执行 主 函数 
43 def main(path): 
44 rename image(path) 
45 create index(path) 
46 archive_dir (path) 
47 
48 if _name ==" main _": 
49 img_dir = input ("请 输入 路 径 :") ”# 取得 图 片 文 件 夹 路 径 ， 比 如 "E:\images" 
50 start = time.time() # 计时 
51 广 = 0 # 初始 化 计算 器 为 0 
52 main(img dir) 
53 m= time,time() - start 
54 Print (" 程 序 运行 耗 时 :8%0.2f”&% m) 
5 Print ("总 共处 理 了 %d 张 图片 ”% i) 


以 笔者 主机 为 例 ， 准 备 处 理 E:images 下 的 文件 ， 该 目录 如 图 11.1 所 示 。 























图 11.1 待 处 理 目录 Eimages 
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执行 结果 如 图 11.2 所 示 。 





11.2 ”处 理 后 的 目录 E:images 


同时 会 在 images 同 级 目录 下 创建 一 个 images.zip。 在 Windows cmd 中 执行 该 代码 可 能 会 报 
PermissionError 错误 ， 这 是 权限 问题 ， 但 不 影响 我 们 得 到 所 需 的 结果 。 


PIL 〈Pilow) 模块 一 一 图 像 实战 


PIL (Python Image Library ) 即 为 Python 图 像 库 ， 为 Python 解释 器 添加 图 像 处 理 功 能 。 该 库 
支持 多 种 文件 格式 ， 提 供 强大 的 图 像 处 理 和 图 形 显示 功能 。 在 当前 人 工 智能 火热 的 背景 下 ，PIL 已 
然 是 图 像 识别 、 数 据 分 析 、 深 度 学 习 等 必 备 的 图 像 库 。 虽 然 PIL 的 功能 非常 强大 ， 但 其 提供 的 接口 
简单 易 用 。 

由 于 PIL 版 本 很 久未 更 新 ， 当 前 版 本 为 1.1.7， 可 从 其 官方 网 站 (http://www.pythonware.com/ 
products/pil) 上 看 出 来 。 考 虑 它 支持 的 是 Python 2.x， 目 前 我 们 都 使 用 在 其 基础 上 创建 的 兼容 版 本 
Pillow，Pillow 在 PIL 基础 上 增加 了 许多 新 特征 ， 而 且 支持 Python 3.x。 

本 章 主要 涉及 的 知识 点 有 : 

Pillow 库 及 其 安装 : 通过 Pillow 库 的 安装 学 会 如 何 安装 Python 库 。 

Image 类 : 学 会 使 用 PIL 模块 下 Image 类 进行 图 像 处 理 。 

图 像 合成 : 通过 Image 类 的 方法 对 两 张 不 同 图 片 实现 合成 。 

图 像 变换 : 主要 从 图 像 通 道 、 几 何 变 换 、 栽 剪 等 对 图 像 进 行 变换 处 理 。 

图 像 处 理应 用 : 综合 Pillow 下 的 相关 类 及 所 学 的 图 像 处 理 知识 进行 实战 演练 操作 ， 从 而 掌握 
Pillow 库 的 用 法 。 


12.1 ”Pillow 库 简 介 与 安装 


本 节 首 先 介绍 Pillow 库 及 该 库 的 用 途 ， 进 而 讲解 为 何 该 库 在 人 工 智能 方面 有 着 不 可 代替 的 优 
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12.1.1 ”Pillow 库 的 介绍 


Pillow 核心 库 可 以 用 于 快速 访问 存储 在 一 些 基 本 像素 格式 中 的 数据 , 这 样 意味 着 它 可 以 以 数字 
的 方式 来 处 理 图 片 。 事 实 上 ， 在 图 像 识别 中 经 常 使 用 Pillow 库 的 原因 是 可 以 通过 Pillow 某 些 类 对 
图 片 进行 处 理 ， 然 后 用 多 维 数组 表示 ， 进 而 进行 计算 。 

Pillow 库 是 图 像 归 档 和 批 处 理应 用 程序 的 理想 选择 , 可 以 使 用 该 库 创建 缩 略图 , 对 图 片 格式 进 
行 转换 、 打 印 图 像 等 。 它 包含 基本 的 图 像 处 理 功能 ， 如 点 操作 、 使 用 一 组 内 暂 的 卷 积 内 核 进行 过 滤 
及 色彩 空间 转换 ， 还 支持 图 像 大 小 调整 、 旋 转 和 任意 仿 射 变换 等 。 

总 之 ， 它 是 Python 图 像 处 理 的 通用 基础 。 


12.1.2 ”Pillow 库 的 安装 


可 以 通过 pip 安装 Pillow: 


$ pip install Pillow 


Pillow 和 PIL 不 能 同时 存在 相同 的 环境 中 ， 因 此 在 安装 Pillow 之 前 需要 先 纯 载 PIL。 





很 多 人 安装 某 些 依赖 会 发 现 报 无 法 “import Image” 错 误 , 这 个 错误 是 因为 版 本 不 对 , Pillow 1.0 
后 不 再 支持 “import Image”。 

对 于 所 有 Python 包 ， 我 们 都 可 以 使 用 源 文件 进行 安装 ，Pillow 亦 然 。 

可 从 Pillow 官方 github 账号 下 https://github.com/python-pillow/Pillow 下 载 。 至 于 下 载 方式 , 既 
可 以 直接 下 载 zip 文件 后 解压 ， 也 可 以 通过 “git clone ”克隆 ， 这 里 我 们 是 直接 下 载 并 解压 。 进 入 
setup.py 所 在 的 目录 ， 使 用 如 下 方式 安装 : 

$ python setup.py install 

由 于 这 种 安装 方式 经 常 需 要 某 些 依赖 ， 因 此 在 安装 过 程 要 根据 控制 台所 呈现 的 错误 进行 依赖 
包 的 安装 。 

安装 完毕 后 ， 进 入 Python 环境 ， 输 入 : 

>>> import PIL 

如 果 没 有 发 现 错误 ， 说 明 安装 成 功 ， 同 时 可 以 使 用 如 下 方式 查看 其 版 本 。 


>>> PIL. version __ 


“_version ”左右 是 两 条 下 画 线 。 一 般 情 况 下 ， 包 或 模块 都 会 有 这 个 默认 属性 。 
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12.2 Image 类 的 使 用 


Image 模块 是 PIL 包 中 较为 重要 的 模块 ， 其 中 有 一 个 Image 类 与 模块 名 称 同 名 。 可 以 在 
site-packages 文件 夹 下 的 PIL 包 中 找到 Image.py 文件 模块 ， 打 开 它 就 能 找到 Image 类 。Image 类 下 
有 着 不 同 的 属性 、 函 数 及 方法 ， 本 节 将 对 其 进行 详细 介绍 。 这 些 属性 、 函 数 及 方法 都 能 在 Image 
类 里 找到 ， 建 议 读者 打开 文件 多 去 看 看 源 代 码 。 


12.2.1 Image 类 的 属性 


1. Format 


源 文件 的 文件 格式 ， 值 为 字符 串 或 None (默认 值 )。 对 于 图 片 的 文件 格式 ， 我 们 都 不 陌生 ， 
如 JPG、GIF、PNG 等 。 


>>>from PIL import Image 

>>>img = Image.open("“./Numl3/images/test .png”) 
>>>img.format 

‘PNG’ 


2. Format_description 
该 属性 是 对 图 片 格式 进行 描述 ， 值 为 字符 串 或 None (默认 值 )。 紧 接 上 述 代码 输入 : 


>>>img.format description 
"Portable network graphics' 


上 述 两 个 属性 属于 类 属性 ， 接 下 来 我 们 讲 讲 实例 属性 。 

3. Mode 

图 像 模式 。 返 回 字 符 串 ， 默 认 值 为 空 字符 串 ， 该 值 表示 图 像 所 使 用 的 像素 格式 。 支 持 的 格式 
有 1、L、P、RGB、RGBA、CMYK 等 。 


>>>img.mode 
'RGBA' 


4. Size 


图 像 的 尺寸 ,按照 像素 计算 。 返回 值 为 宽度 和 高 度 二 元 组 (width, heighb， 默 认 值 为 (0,0)。 从 源 
代码 可 以 看 出 ， 利 用 @property 装饰 器 函数 把 width 及 height 方法 “装饰 ”成 属性 调用 ， 因 此 width 
和 height 亦 为 Image 类 的 属性 。 


>>>img . size 
(253,453) 
>>>img .width 
253 

>>>img .height 
453 
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5. Palette 
图 像 的 颜色 调 色 板 。 如 果 图 像 的 模式 是 P， 就 返回 ImagePalette 类 的 实例 ;否则 返回 None。 


>>>img.palette 


>>>img = Image.open(“./Numl3/images/bface.gif”) 
>>>img .mode 

wp” 

>>>img.palette 

<PIL.ImagePalette. ImagePalette at 0x540c400> 


6. Info 


存储 图 像 相 关 信息 ， 返 回 值 为 字典 ， 默 认为 f}。 文 件 句 柄 可 以 使 用 该 字典 传递 从 文件 中 读 取 
的 各 种 非 图 像 信 息 。 不 同 的 图 像 返 回 字 典 的 键 值 是 不 一 样 的 ,基于 字典 中 的 键 非 统一 标准 ， 大 多 数 
方法 在 返回 新 的 图 像 时 都 会 忽略 这 个 字典 , 而 且 对 于 一 个 方法 来 说 , 它 无 法 得 知 自己 的 操作 如 何 改 
变 这 个 字典 的 键 值 。 因 此, 如 果 用 户 需 要 保存 这 些 信息 , 就 必须 在 方法 open0 返 回 时 保存 这 个 字典 。 

>>>img.info 

{'background': 0, 'duration': 70，'transparency': 252，'version': 'GIF89a'} 

>>>img = Image.open('‘./Numl3/images/1.jpg’) 

>>>img .info 

{"'jfif': 257, 'jJfif density': (1, 1), "jfif unit': 0, 'jfif version': (1, 1)} 


除了 上 面 讲 的 几 个 实例 属性 ， 还 有 im、category、readonly、pyaccess 等 属性 ， 因 为 不 常用 ， 
这 里 不 做 详细 介绍 。 
Image 还 有 其 他 属性 ， 比 如 通过 @property 装饰 器 函数 “装饰 ”特殊 方法 而 成 的 特殊 属性 。 


@property 
def _ array interface (self): 
# numpy 数组 接口 支持 
new = {} 
shape, typestr = conv type_ shape (self) 
new['shape'] = shape 
new['typestr'] = typestr 
new['version'] = 3 
if self.mode == '1°': 
# Binary images need to be extended from bits to bytes 
# See: https://github.com/python-pillow/Pillow/issues/350 
new['data'] = self.tobytes('raw', ‘'L') 
else: 
new['data'] = self.tobytes() 
return new 


12.2.2 ”Image 类 的 函数 


1. New 


使 用 给 定 的 变量 mode、size 创建 新 图 像 ， 包 含 的 参数 有 mode、size、color。mode 表示 新 图 像 
使 用 的 模式 ， 如 P。size 是 以 像素 形式 给 定 的 宽 / 高 二 元 组 。color 表示 什么 颜色 用 于 图 像 ， 默 认 值 
为 0， 表 示 黑 色 。 如 果 给 出 的 话 ， 这 个 值 应 该 是 单 波 段 模式 的 单个 整数 或 浮 点 值 ， 以 及 多 通道 模式 
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的 元 组 (每 个 通道 一 个 值 ) 。 在 版 本 1.1.4 及 其 之 后 , 用 户 创建 RGB 图 像 时, 还 可 以 使 用 ImageColor 


模 
对 


2 
云 


方法 并 以 二 进 制 模式 打开 。 mode 表示 模式 ， 如 果 给 出 ， 这 个 值 必须 


块 支持 的 颜色 字符 串 ， 比 如 设 变量 color 赋值 为 red。 如 果 颜 色 为 无 ， 则 图 像 不 会 被 初始 化 ， 这 
向 该 图 像 复 制 或 绘制 某 些 内 容 是 有 用 的 。new 函数 返回 的 是 一 个 Image 对 象 。 


def new(mode，size color=0) : 





Pass 
比如 创建 一 个 256X256 大 小 的 图 像 : 


>>>from PIL import Image 
>>>im = Image.new('RGB', (256,256)) 
>>>im. show () 


因 color 取 默 认 值 0，， 故 该 图 像 为 黑色 。 如 果 要 创建 一 个 同 尺寸 的 蓝 色 图 像 ， 就 需要 修改 颜色 值 : 


>>>im = Image.new('RGB', (256,256),""#0000ff"'') 
>>>im. show () 


显示 效果 如 图 12.1 所 示 。 





图 12.1 创建 的 蓝 色 图 像 ( 颜 色 为 蓝 色 ， 参 考 下 载 包 中 相关 文件 ) 
当然 ， 也 可 以 通过 如 下 代码 创建 图 12.1 所 示 的 图 像 。 


>>>im = Image.new('RGB', (256,256),''blue'') 
>>>im. show () 


2. Open 
该 函数 用 来 打开 并 识别 给 定 的 图 像 文件 ， 而 且 只 标识 文件 头 ， 使 文件 保持 打开 状态 ， 直 到 你 
试 处 理 数据 (或 调用 load() 方 法 ) 时 才 会 从 文件 中 读 取 实际 的 图 像 数据 。 





def open(fp，mode='r') : 
Pass 
印 为 文件 名 (字符 串 ) 、pathlib.Path 对 象 或 文件 对 象 。 文 件 对 象 必须 实现 read()、seek() 和 tell0 


。 返 回 Image 对 象 。 











>>>from PIL import Image 
>>>im = Image.open('./Num13/images/test.jpg') 
>>>im. show () 

>>>iml= Image.open('./Num13/images/test.jpg', 'r') 
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>>>iml .show() 

3. Alpha_composite 

该 函数 对 图 像 进行 Alpha 复合 ， 有 iml 和 im2 两 个 参数 ， 分 别 表 示 两 张 图 像 ， 必 须 是 RGBA 
模式 ， 且 im2 必须 与 iml 图 像 大 小 相同 。 返 回 Image 对 象 。 


def alpha composite(iml, im2): 
pass 


事实 是 im2 覆盖 了 im1， 示 例如 下 : 


>>> from PIL import Image 

>>>iml = Image.new('RGBA', (256,256), '#0000ff') 
>>>im2 =Image.new('RGBA', (256,256), '#ff00007) 
>>>alpha im = Image.alpha composite(iml, im2) 
>>>alpha_im. show() 


从 返回 的 效果 发 现 iml 与 im2 一 样 。 如 果 im2 的 大 小 或 模式 与 iml 不 一 样 ,就 会 报 “ValueError: 
images do not match” 错 误 。 

4. blend 

blend 函数 使 用 给 定 的 两 张 图 像 及 透明 度 变量 Alpha 进行 插值 并 生成 一 张 新 图 像 。 

def blend (iml, im2, alpha): 

pass 

iml 表示 首 张 图 像 ，im2 表示 与 iml 同 尺寸 和 模式 的 图 像 ， 否 则 会 报错 。 其 合成 公式 为 out = 
imagel *(1.0 - alpha) + image2 * alpha。alphpa 为 插值 alpha 因子。 如 果 alpha 为 0.0， 就 返回 第 一 个 
图 像 的 副本 。 如 果 alpha 为 1.0， 就 返回 第 二 个 图 像 的 副本 。Alpha 值 没 有 限制 ， 如 有 必要 ， 结 果 将 
被 剪裁 以 适合 允许 的 输出 范围 。 

>>>from PIL import Image 

>>> iml =Image.open("./Numl3/images/scencel.jpg") 

>>> im2 =Image.open("./Numl3/images/scence2.jpg ") 


>>> im =Image.blend(iml, im?2, 0.35) 
>>> im.show() 


合成 的 效果 如 图 12.2 所 示 。 





图 12.2 blend 函数 处 理 所 得 效果 
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5. composite 
Composite 函数 通过 在 两 个 输入 图 像 之 间 插 值 创建 一 个 新 图 像 , 通过 使 用 透明 度 蒙 版 混合 图 像 
创建 合成 图 像 。 


def composite(imagel, image2, mask): 
pass 


imagel 表示 首 张 图 像 ，image2 表示 与 imagel 同 尺 寸 和 模式 的 图 像 ，mask 表示 蒙 版 图 像 。 该 
图 像 具 有 模式 有 1、L、RGBA， 并 且 必 须 与 其 他 两 个 图 像 有 相同 的 尺寸 。 


>>>from PIL import Image 

>>> image01 =Image.open("./Numl3/images/scencel.jpg") 
>>> image02 =Image.open("./Numl3/images/scence2.jpg " 
>>>R,G,B = image01.spPlit() 

>>>G.mode 

‘Lr 

>>> im =Image.composite (image01, image02, 6G, 

>>> im.show() 


合成 的 效果 如 图 12.3 所 示 。 








图 12.3 ”composite0 函 数 处 理 所 得 效果 
6. eval 
将 函数 〈 应 该 带 一 个 参数 ) 应 用 于 给 定 图 像 中 的 每 个 像素 。 如 果 图 像 具 有 多 个 通道 ， 就 将 相 
同 的 功能 应 用 于 每 个 通道 。 


因为 该 函数 对 每 个 像素 值 只 处 理 一 次 ， 所 以 不 能 使 用 随机 组 件 或 其 他 生成 器 。 





def eval(image, *args): 
pass 


参数 image 表示 输入 图 像 ，function 表示 有 一 个 整 型 参数 的 函数 对 象 。 返 回 Image 对 象 。 
>>>from PIL import Image 
>>> image01 =Image .open("./Numl3/images/scencel .jpg") 


>>>def eval fun(x): 
return x*0.35 
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>>>eval im = Image.eval (image01，eval_fun) 
>>>eval_im.show() 


所 得 结果 如 图 12.4 所 示 。 





12.4 eval0 函 数 处 理 所 得 效果 


7. merge 
merge 用 于 将 一 组 单 通道 图 像 合并 成 一 个 新 的 多 通道 图 像 。 


def merge (mode, bands): 
pass 


mode 表示 输入 图 像 的 使 用 模式 ，bands 包含 单 通道 图 像 的 序列 ， 每 个 序列 必须 具有 相同 的 大 


小 。 


>>>from PIL import Image 

>>> im2 =Image.open("./Numl3/images/scence2.jpg") 
>>>im2 .mode 

RGB 

>>>rrgvb = im2.split() 

>>>im = Image.merge( "RGB'， (rrgrb)) 


>>>im. show () 
这 里 只 是 为 了 演示 显示 图 与 原 图 一 样 ， 毕 竟 是 先 把 它 拆 分 后 再 合成 的 。 
8. fromarray 


从 导出 阵列 接口 的 对 象 〈 使 用 缓冲 协议 ) 创建 图 像 内 存 。 
def fromarray(obj, mode=None): 
pass 
obj 表示 阵列 接口 对 象 ， 如 果 参 数 obj 是 非 连 续 的 ， 就 调用 tobytes 方法 ， 并 使 用 frombuffer()。 
mode 表示 使 用 模式 〈 如 果 没有 ， 将 从 类 型 中 确定 ) 。 


>>>from PIL import Image 

>>> im2 =Image.open("./Numl3/images/scence2.jpg") 
>>>import numpy as np 

>>>array = numpy.array (im2) 
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>>>image2 = Image.fromarray (array) 
>>>image2 .show() 


上 述 代 码 调用 了 非常 有 名 的 Python 科学 计算 工具 包 numpy, 这 个 工具 包 包 含 了 大 量 有 用 的 
具 ， 如 数组 对 象 (表示 向 量 、 和 矩阵 、 图 像 等 ) 及 线性 代数 函数 。 这 里 不 做 讲述 ， 读 者 可 使 用 如 下 
式 进行 安装 或 使 用 anaconda 之 类 的 集成 软件 。 

$pip install numpy 

这 里 主要 使 用 numpy 把 PIL 图 像 转换 成 数组 (或 阵列 ) ， 然 后 通过 fromarray() 函 数 把 数组 

9. frombytes 

利用 缓存 中 的 像素 数据 创建 图 像 存储 器 的 副本 。 


frombytes (mode, size, data, decoder name='raw', *args): 
pass 


该 函数 比较 简单 的 形式 也 有 3 个 参数 : mode、size、data， 分 别 表示 模式 、 尺 寸 及 解 包 的 像 
数据 。 可 以 使 用 PIL 支持 任何 像素 解码 器 。 





该 功能 只 能 解码 像素 数据 ， 而 不 能 解码 整个 图 像 。 如 果 字 符 串 中 包含 完整 的 图 像 ， 则 必须 
包装 在 BytesIO 对 象 中 ， 然 后 使 用 open() 加 载 它 。 





>>>from PIL import Image 

>>> im2 =Image.open("./Num13/images/scence2.jpg") 
>>>w =im2 .width 

6000 

>>>h=im2.height 

4000 

>>>m=im2.mode 

"RGB 

>>>image = Image.frombytes('RGBAf fw ,im2.tobytes()) 


10. frombuffer 
利用 字 节 缓冲 区 中 的 像素 数据 创建 图 像 存储 器 。 


frombuffer (mode, size, data, decoder name='raw', *args):; 
pass 


该 函数 与 frombytes0 〇 类似， 但 使 用 的 是 字 节 缓冲 区 中 的 数据 ， 这 意味 着 对 原始 缓冲 区 对 象 
更 改 反映 在 此 图 像 中 。 而 且 并 非 所 有 模式 都 可 以 共享 内 存 ， 支 持 的 模式 包括 L、RGBX、RGBA 
CMYK。mode 表示 模式 ，size 表示 大 小 ，data 表示 字 节 或 包含 给 定 模式 的 原始 数据 的 其 他 缓冲 








E 
方 


转 


的 
和 


xX. 





对 象 ，decoder_name 表示 解码 器 名 称 ，*args 表示 给 定 解码 器 的 附加 参数 。 对 于 默认 编码 器 (原始) 


建议 提供 全 套 参 数 ， 比 如 : 


frombuffer (mode, size, data, "raw", mode, 0, 1) 


第 12 章 PIL ( Pillow ) 模块 一 一 图 像 实战 | 229 





版 本 1.1.6 及 其 以 下 ， 这 个 函数 的 默认 情况 与 函数 fromstring() 不 同 。 这 个 有 可 能 在 将 来 的 版 


本 中 改变 ， 因 此 为 了 最 大 的 可 移植 性 ， 当 使 用 “raw” 解 码 器 时 ， 推 荐 用 户 写 出 所 有 的 参 
数 。 





基于 篇 幅 的 原因 ，Image 类 下 的 函数 或 方法 就 介绍 到 这 里 ， 如 果 读 者 想 了 解 更 多 的 内 容 ， 可 以 
访问 其 API。Image 类 下 的 属性 、 函 数 或 方法 说 明 ， 如 表 12.1 所 示 。 


表 12.1 Image 类 下 的 属性 、 函 数 或 方法 说 明 

































































属性 /方法 /函数 说 明 

Filename 源 文件 的 文件 名 或 路 径 

Mode 图 像 模式 

Size 图 像 大 小 ， 以 像素 格式 显示 ， 是 一 个 (widthheighb 

Width 图 像 宽度 ， 以 像素 格式 显示 

Height 图 像 高 度 ， 以 像素 格式 显示 

Palette 
Info 
Open 
Alpha_composite 对 图 像 进 行 Alpha 复合 ， 图 像 必须 是 RGBA 模式 

Blend 通过 在 两 个 输入 图 像 之 间 插 值 创 建新 图 像 

Composite 
Eval 
Merge 
New 
Fromarray 
Frombytes 
Fromstring 从 字符 串 中 的 像素 数据 产生 一 个 图 像 存 储 

Frombuffer 利用 字 节 缓冲 区 中 的 像素 数据 创建 图 像 存 储 器 

Register_open 注册 图 像 插件 

Register_ mime 注册 图 像 MIME 类 型 

Register save 注册 图 像 保 存 功 能 

Register encoder 注册 图 像 编码 器 

Register extension 注册 图 像 扩展 名 

Convert 对 图 像 进行 转换 ， 生 成 该 图 像 副 本 

Copy 复制 图 像 

Crop 切割 图 像 

Draft 配置 图 像 加 载 便于 返回 可 能 接近 给 定 模式 和 大 小 的 图 像 版 本 

Filter 使 用 给 定 的 过 滤器 过 滤 图 像 

Getbands 以 元 祖 的 形式 获取 图 像 每 个 通道 名 











Getbbox 计算 图 像 中 非 零 区 域 的 边界 框 
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( 续 表 ) 
属性 /方法 /函数 
Getcolors 获取 图 像 中 使 用 的 颜色 列表 
Getdata 以 像素 值 序列 形式 获取 图 像 内 容 
Getextrema 获取 图 像 每 个 通道 中 最 小 和 最 大 像素 值 
Getpalette 以 列表 的 形式 获取 图 像 调 色 板 
Getpixel 获取 给 定位 置 的 像素 值 
Histogram 获取 图 像 的 直方 图 
Offset 获取 图 像 的 偏 移 
Paste 在 图 像 上 粘贴 另 一 张 图 像 
Point 通过 查找 表 或 函数 映射 图 像 
Putalpha 添加 或 蔡 换 图 像 的 Alpha 图 层 
Putdata 复制 像素 数据 给 图 像 
Putpalette 附加 调 色 板 给 图 像 
Putpixel 
Quantize 
Resize 
Remap palette 
Rotate 
Save 
Seek 
Show 
Split 
Getchannel 
Tell 
Thumbnail 
Tobitmap 
Tobytes 
Tostring 将 图 像 返 回 字符 串 
Transform 转换 图 像 
Transpose 转 置 图 像 〈 在 90” 的 步骤 中 翻转 或 旋转 ) 
Verify 验证 文件 内 容 
Fromstring 从 字符 串 获取 图 像 
Load 为 图 像 分 配 存储 并 加 载 像 素数 据 
Close 关闭 文件 指针 





Image 类 及 Image 模块 就 介绍 到 这 里 ,下 一 节 我 们 将 开始 介绍 图 像 的 应 用 。 此 外 说 明 一 下 , PIL 
有 很 多 像 Image 一 样 的 模块 ,而 且 模块 里 有 像 Image 一 样 拥有 属性 或 方法 的 类 , 大 家 多 去 看 看 官方 


文档 或 源 代 码 。 
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12.3 图 像 的 基本 合成 


本 节 将 利用 上 节 所 学 的 知识 进行 图 像 合成 处 理 ， 讲 述 几 种 方式 进行 图 像 的 基本 合成 。 


12.3.1 调用 Image.composite 接口 





主要 通过 在 两 个 输入 图 像 之 间 择 值 创建 一 个 新 图 像 ， 通 过 使 用 透明 度 蒙 版 混合 图 像 创建 合成 
图 像 。 事 实 上 ， 在 上 节 介 绍 函 数 的 时 候 已 经 进行 了 讲述 ， 这 里 将 以 文件 或 模块 的 方式 进行 阐明 。 
【示例 12-1】 创 建 一 个 ImageComposite.py 文件 ， 输 入 如 下 代码 : 
01 # /usr/bin/env Python 
02 # -*- coding:utf-8 -*- 
03 


04 from PIL import Image 
05 def composite image(): 


06 iml = Image.open ("one.jpg") 

07 iml = iml.convert ("RGBA") # 模式 可 以 为 "1""L""RGBA" 
08 im2 = Image.open ("two.jpg") 

09 im2 = im2.convert ("RGBA") 

10 r, g, b, alpha = im2.split() 

EE alpha = alpha.point (lambda i: i > 0 and 168) 

2 

| im result = Image.composite (im2，iml，alpha) # 注意 im2 与 iml 大 小 相同 
14 im result.save("result.jpg") 

15 return im = im result.show() 

16 return return im 

人 

18 if _name ==" main ": 

19 composite image() 


运行 该 模块 查看 合成 所 得 结果 。 模 块 中 composite_image() 函 数 通过 PIL 图 像 方式 打开 ， 然 后 
转化 成 相同 模式 并 进行 单 通 道 处 理 , 再 在 两 个 输入 图 像 之 间 插 值 创建 一 个 新 图 像 。 可 以 对 该 函数 稍 
微 处 理 一 下 ， 变 得 更 通用 一 些 。 


def composite image(iml, im2,result im, mode=’RGBA’): 


imagel Image .open (iml) 


image2 = 
rrgrbya = image2.split() 

alpha = a.point (lambda i: i>0 and 168) 
result image = Image.composite (image2, imagel, alpha) 


Image .open (im2) 


result image.save (result im) 
im show = result_image.show () 
return im show 
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12.3.2 ”调用 Image.blend 接口 


该 接口 与 Image.composite 调用 差不多 ， 也 是 使 用 给 定 的 两 张 图 像 及 透明 度 变 量 alpha 进行 插 
值 生 成 一 张 新 图 像 , 不 过 它 是 在 给 定 的 两 张 图 像 进行 合并 时 , 按照 公式 out = imagel * (1.0 - alpha) 十 
image2 * alpha 进行 的 。 

【示例 12-2】 创 建 一 个 ImageComposite .py 文件 ， 输 入 如 下 代码 : 


01 # /usr/bin/env Python 
02 # -*- coding:utf-8 -*- 


03 

04 from PIL import Image 

05 

06 def blend image(): 

07 iml = Image.open("one.jpg") 

08 iml = iml.convert("RGBR") ## 模式 可 以 为 "1" "L" "RGBR" 
09 im2 = Image.open("two.jpg") 

10 im2 = im2.convert ("RGBA") 

LL 

12 im result = Image.blend(im2，iml，0.16) # 注意 im2 与 iml 大 小 相同 
3 im_result.save ("result1.jpg") 

14 return im = im result.show() 

15 return return im 

16 

17 if name ==" main "3 

18 blend image() 


从 上 面 的 代码 可 以 看 到 ， 该 接口 与 Image.composite 调用 的 不 同 在 于 alpha 值 的 获取 。 


12.3.3 ”调用 Image.paste 接口 


该 接口 与 上 述 两 个 接口 有 所 不 同 ， 它 调用 的 参数 不 一 样 ， 其 主要 用 于 在 一 张 图 像 上 粘贴 另 一 
张 图 像 。 
【示例 12-3】 创 建 PasteImage.py 文件 ， 编 辑 代码 如 下 : 


01 # /usr/bin/env python 
02 #-*- coding:utf-8 -*- 


03 

04 from PIL import Image 

05 

06 

07 def paste image(): 

08 base im = Image.open('two.jpg') # 加 载 底 图 

09 base im = base im.convert('RGBA') # 转换 成 RGBA 图 像 模式 
10 

Eh iml = Image.open('weixin.jpg') ## # 加 载 需要 放 上 去 的 图 片 
证 box = (0, 0, 600, 600) 

13 

14 region = iml.resize((box[2] - box[0]，box[3] - box[1])) # 对 图 片 进 行 缩放 ， 以 适应 
15 ”box 区 域 大 小 

16 base_im.paste (region，box) # 粘 贴图 片 到 另 一 种 图 片上 


说 base_im.save('out.jpg') # 保存 图 片 
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18 im show = base im.show() # 查看 合成 的 图 片 
19 return im show 

20 

21 if _name ==" main "; 

22 paste_image () 


当然 ， 也 可 以 修改 函数 paste_ image0， 把 输入 输出 值 作为 参数 传 给 它 ， 还 可 以 利用 图 像 crop0 
函数 对 图 像 进 行 裁剪 ， 然 后 在 区 域内 合成 ， 这 里 不 做 演示 。 

在 实际 应 用 中 ， 图 像 的 合成 不 仅 这 几 种 ， 如 果 读 者 想 了 解 更 多 关于 图 像 合成 处 理 的 知识 ， 可 
以 阅读 基于 BSD 许可 《开源 ) 发 行 的 跨 平 台 计算 机 视觉 库 OpenCV。 


12.4 图 像 的 变换 


在 图 像 处 理 过 程 中 图 像 的 变换 显得 尤为 重要 ， 比 如 不 同 的 图 像 格式 有 其 特定 的 图 像 计算 方法 ， 
我 们 需要 对 图 像 格式 进行 转换 。 


12.4.1 图 像 格 式 及 尺寸 变换 


1. 图 像 格式 转换 

常见 的 图 像 格式 有 PNG、JPG、BMP、GIF 等 。 对 于 彩色 图 像 ， 不 管 其 图 像 格 式 是 PNG、JPG 
或 BMP， 使 用 PIL.Image 模块 的 open0) 函 数 打开 后 ， 返 回 图 像 对 象 的 模式 都 是 "RGB"。 对 于 灰 度 图 
像 ， 其 打开 的 模式 为 “L”。 可 以 通过 mode 属性 查看 图 像 模式 。 

>>>from PIL import Image 

>>> im = Image.open("./Numl3/one.jpg") 

>>>im.mode 

"RGB" 

>>>im.save ("./Numl13/one png.png", 'png') 

>>>im.show() 





2. 图 像 尺 寸 变换 


我 们 知道 图 像 尺 寸 是 一 个 宽 高 二 元 组 ， 可 以 通过 属性 size 获得 。 对 图 像 尺 寸 变换 主要 针对 宽 
度 或 高 度 进行 处 理 ， 可 以 按 宽 高 等 比例 进行 调整 ， 也 以 可 只 调整 宽度 或 高 度 。 


>>>from PIL import Image 

>>>im = Image.open("./Numl3/one.jpg") 

>>> print (u" 宽 度 : %s， 高 度 : ss" %(im.size[0], im.size[1])) 
宽度 : ”6000， 高 度 : 4000 

>>> print (u" 宽 度 : ss， 高 度 : ss" %(im.width, im.height)) 
宽度 :6000， 高 度 : 4000 


>>>new_size = (im.size[0]/10, im.size[1]/10) 
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>>>im.thumbnail (new size, Image.ANTIALIAS) 

>>>im. size 

(600, 400) 

>>>im.save ('new size.jpg', 'jpeg') 

thumbnail() 函 数 包含 两 个 参数 : 第 一 个 指定 图 像 的 大 小 ; 第 二 个 指定 过 滤器 类 型 。 过 滤器 类 型 
有 NEAREST、BILINER、BICUBIC、ANTALIAS， 其 中 ANTALIAS 的 图 像 品 质 最 高 。 


>>>renew size = (im.size[0]/30, im.size[1]/20) 
>>>resize im = image.resize(renew size, Image.ANTIALIAS) 
>>>resize_ im.save('resize.jpg', 'jpeg') 





12.4.2 ”图像 通道 变换 


通道 变换 就 是 之 前 讲 的 模式 变换 。 在 PIL 中 有 9 种 不 同 的 模式 , 分 别 是 1、L、P、RGB、 RGBA、 
CMYK、YCbCr、I、F。 

1. 彩色 图 像 (多 通道 ) 转 灰色 图 像 〈 单 通道 ) 

灰 度 图 像 的 模式 是 L， 比 较 简 单 的 方式 是 将 图 像 模式 转换 为 L。 


>>>from PIL import Image 

>>> im = Image.open('one.jpg') 
>>>iml = im.convert('L') 
>>>iml .show() 


所 得 图 像 变 成 黑色 ， 如 图 12.5 所 示 。 





图 12.5 黑色 图 像 


如 果 我 们 想 对 图 像 做 更 多 的 灰 度 处 理 ， 有 必要 了 解 一 下 图 像 转 换 为 灰 度 的 方法 : 
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(1) 浮 点 算法 : gray=R*0.3+G*0.59+B*0.11。 

(2) 整数 方法 : gray=(R*30+G*59+B*11)/100。 

(3) 移 位 方法 : gray =(R*76+G*151+B*28)>>8。 

(4) 平均 值 法 : gray= (R+G+B) /3。 

其 中 R、G、B 分 别 代 表 RGB(R,G,B) 中 的 各 值 ,通过 计算 得 到 的 gray 值 代替 原来 的 值 而 形成 新 颜 
色 RGB(gray, gray, gray) 的 灰 度 图 。 此 处 不 用 例子 演示 ， 毕 竟 它 涉及 numpy 数组 等 各 项 知识 。 

2. 通道 合并 

通道 合并 在 介绍 merge() 函 数 时 讲 过 。 直 接 看 代码 : 

>>>from PIL import Image 


>>> im = Image.open('one.jpg') 
>>>iml = im.convert('L') 


>>>rvgvb = im.split() # 分 离 通道 
>>>im2 = Image.merge('RGB', (r, g, b)) # 合 并 通道 
>>>r.show() # 显示 r 通道 图 像 


12.4.3 ”图像 几何 变换 


图 像 几 何 变换 主要 是 指 图 像 缩放 、 旋 转 及 转换 ， 这 些 都 比较 简单 。 


>>>from PIL import Image 

>>> im = Image.open('one.jpg') 

>>> iml = im.resize((600，400)) # 缩放 图 像 

>>> im2 = iml.rotate(60) # 顺 时 针 角 度 旋转 图 像 
>>>im3 = iml.transpose (Image.FLIP_LEFT_RIGHT) # 左右 对 换 

>>>im4 = iml.transpose (Image.Flip_TOP_BOTTOM) # 上 下 对 换 

>>>im5 = iml.transponse (Image.ROTATE 60) # 顺 时 针 旋 转 60 度 


12.4.4 图 像 变换 成 OpenCV 格式 


是 否 为 OpenCV 格式 只 需 判 断 该 图 像 是 否 为 np.ndarray 实例 ， 其 中 np 代表 numpy， 即 
isinstance(im, np.ndarray)。 这 里 做 一 个 简单 介绍 ， 暂 时 不 清楚 也 不 要 紧 ， 在 Python 后 续 开发 过 程 中 
读者 会 接触 到 。 


>>>from PIL import Image 

>>>import cv2 # 代表 OpenCV 

>>>import numpy as np 

>>>im = Image.open (‘one.jpg’) 

>>>iml = cv2.cvtColor(np.asarray (image), cv2.COLOR RGB2BGR) 
>>>cv2.imshow(“result image”, iml) 

>>>cv2 .waitKey() 
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12.5 图 像 处 理 实战 





查看 过 Pillow 库 源 代码 或 其 文档 的 读者 应 该 会 发 现 ， 我 们 仅 讲述 该 库 下 较为 重要 的 Image 模 


块 , 还 有 ImageChops、ImageColor、 ImageCms、 ImageDraw、ImageEnhance、 ImageFile、 ImageFilter、 








ImageFont、 ImageGrob、 ImageMath、 ImageMorph、 ImageOps、 ImagePalette、 ImagePath、ImageQt、 
ImageSequence、 ImageStat, ImageTk、 ImageWin、 ExifTags、, TiffTags、 PSDraw、 PixelAccess, PyAccess 
等 模块 未 讲解 。 如 果 读 者 想 了 解 更 多 关于 Pillow 库 的 知识 ， 可 以 访问 
http://pillow.readthedocs.io/en/latest/index.html 进行 查阅 。 

玩 微 信 朋 友 图 的 人 经 常会 看 到 如 图 12.6 所 示 的 一 类 
图 片 : 一 张 不 错 的 照片 ， 一 段 耐 人 寻味 的 话 ， 以 及 一 个 二 
维 码 。 本 节 就 以 生成 这 样 的 图 片 为 实例 进行 讲解 , 希望 读 
者 通过 该 实例 能 理解 图 像 的 基本 处 理 。 

首先 创建 一 张 纯 黑 的 图 像 (400X600) ; 然后 在 其 
上 粘贴 照片 Cone:jpg) 及 二 维 码 图 片 (weixinjpg) ; 最 
后 加 入 文字 即 可 。 

【示例 12-4】 

创建 一 个 ImageExample.py 文件 ， 输 入 如 下 代码 : 


01 # /usr/bin/env python 黑夜 给 了 我 一 双 黑色 的 眼睛 
02 天 =*= ding: utf-8 -*= 
全 全 我 却 用 它 寻找 光明 
03 
04 from PIL import Image, ImageDraw, ImageFont 顾城 
05 


06 im = Image.new('RGB', (400, 600), '#000') # 
新 建 黑色 图 像 
07 font = ImageFont.truetype ("simsun.ttc",16) 
08 iml = Image.open('one.jpg') 





09 resize im = iml.resize((1200, 800)) # 缩放 图 

像 图 12.6 图 像 处 理 实战 样 例 
10 crop im = resize im.crop((500, 200, 900, 500)) 

# 切割 图 像 


11 im.paste (crop_im，(0,0)) # 粘贴 图 像 

12 draw = ImageDraw.Draw(im) # 绘制 图 像 

13 ”draw.text ((60,350)，u' 黑 夜 给 了 我 一 双 黑色 的 眼睛 ', (255,255,255), font=font) # 输入 文本 
14 ”draw.text ((60, 380),u' 我 却 用 它 寻找 光明 '，,(255, 255,255) , font=font) 

15 draw.text ((60, 410),u' 一 顾城 '，(255,255,255) ,font=font) 

16 

17 im2 = Image.open('weixin.jpg') 

18 resize im2 = im2.resize((120, 120)) 

19 im.paste (resize im2, (180,450)) 

20 im. show() 


运行 代码 就 能 得 到 图 12.6 所 示 的 效果 。 也 许 有 人 会 对 此 有 些 不 悄 ， 用 Photoshop 等 软件 设计 
不 是 更 好 看 吗 ? 不 过 我 想 说 的 是 , 一 张 或 几 张 也 许 用 软件 设计 更 好 ， 如 果 是 批量 同时 自动 处 理 ， 你 
还 会 这 样 认 为 吗 ? 
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网 络 编程 属于 Python 编程 非常 重要 的 内 容 , 我 们 使 用 Python 进行 项 目 开 发 时 无 不 涉及 网 络 编 
时 。Python 模块 中 提供 网 络 底 层 接口 主要 来 自 socket 模块 ， 而 且 它 适用 于 各 种 主流 系统 平台 。 当 
然 ， 某 些 特性 的 调用 可 能 会 使 用 操作 系统 中 的 socket APIs 进行 。 
本 章 主要 涉及 的 知识 点 有 : 
@ 网 络 编程 理论 : 通过 对 网 络 协议 、IP 地 址 和 端口 、socket 的 讲述 增强 对 网 络 知识 的 了 解 ， 明 
白 网 络 通信 是 如 何 进行 操作 的 。 
@ TCP: 讲述 TCP 协议 ， 并 用 例子 演示 实现 TCP 服务 端 及 客户 端 ， 完 成 对 网 络 之 间 数 据 流 的 
传输 。 
@ UDP: 讲述 UDP 协议 ， 并 用 例子 演示 实现 UDP 服务 端 及 客户 端 ， 完 成 基于 UDP 网 络 数据 
的 传输 。 


13.1 网络 编程 基础 


网 络 编程 的 基础 是 网 络 通信 , 而 网 络 通 信和 建立 在 一 系列 网 络 协 议 的 基础 上 。TCP/IP 协议 与 UDP 
协议 可 以 说 是 常用 的 网 络 协议 





13.1.1 网 络 协议 


网 络 协议 是 计算 机 网 络 数据 进行 彼此 交换 而 建立 起 的 规则 、 标 准 或 约定 的 集合 。 通 俗 地 讲 ， 
就 是 计算 机 网 络 中 设备 彼此 之 间 交 流 的 方式 , 正如 我 与 你 的 交谈 , 我 们 使 用 的 是 普通 话 , 而 这 普通 
话 就 是 一 种 网 络 协议 。 网 络 协 议 由 三 部 分 组 成 : 语义 、 语 法 和 时 序 。 其 中 语义 是 用 来 解释 控制 信息 
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每 个 部 分 的 意义 ; 语法 是 用 户 数据 与 控制 信息 的 结构 与 格式 ， 以 及 数据 出 现 的 顺序 ; 时 序 是 对 事件 
发 生 顺 序 的 详细 说 明 。 可 以 这 样 形象 地 描述 : 语义 表示 要 做 什么 ， 语 法 表示 要 怎么 做 ， 时 序 表示 做 
的 顺序 。 

基于 网 络 节点 之 间 联 系 的 复杂 性 ， 在 制定 网 络 协议 时 ， 会 通过 一 些 层 次 结构 简化 彼此 之 间 的 
联系 。 国 际 标 准 化 组 织 (ISO ) 在 1978 年 提出 了 “开放 系统 互联 参考 模型 ”， 即 著名 的 OSURM 模 
型 (Open System Interconnection/Reference Model) 。 它 将 网 络 协议 划分 为 七 层 ， 自 下 而 上 依次 为 
物理 层 (Physics Layer)、 数 据 链 路 层 (Data Link Layer)、 网 络 层 (Network Layer)、 传 输 层 (Transport 
Layer) 、 会 话 层 (Session Layer) 、 表 示 层 (Presentation Layer) 和 应 用 层 (Application Layer) ， 
具体 如 表 13.1 所 示 。 





表 13.1 计算 机 网 络 协议 OSVRM 模型 





层次 名 称 
第 7 层 | 应 用 层 (Application) 负责 网 络 中 应 用 程序 与 网 络 操作 关系 之 间 的 联系 , 例如 : 建立 和 结束 使 
用 者 之 间 的 连接 ， 管 理 建立 相互 连接 使 用 的 应 用 资源 

第 6 层 | 表示 层 (Presentation) 用 于 确定 数据 交换 的 格式 , 它 能 够 解决 应 用 程序 之 间 在 数据 格式 上 的 差 
异 ， 并 负责 设备 之 间 所 需要 的 字符 集 和 数据 的 转换 


第 5 层 | 会 话 层 (Session) 用 户 应 用 程序 与 网 络 层 接口 , 它 能 够 建立 与 其 他 设备 的 连接 ( 即 会 话 )， 
并 且 能 够 对 会 话 进行 有 效 地 管理 

第 4 层 | 传输 层 (Transport) 提供 会 话 层 和 网 络 层 之 间 的 传输 服务 , 该 服务 从 会 话 层 获得 数据 , 必要 
时 对 数据 进行 分 割 ， 然 后 将 数据 传递 到 网 络 层 ， 并 确保 数据 能 正确 无 误 
地 传送 到 网 络 层 

第 3 层 | 网 络 层 (Network) 能 够 将 传输 的 数据 封包 , 然后 通过 路 由 选择 、 分 段 组 合 等 控制 , 将 信息 
从 源 设备 传送 到 目标 设备 

第 2 层 | 数据 链 路 层 (Data Link) | 主要 是 修正 传输 过 程 中 的 错误 信号 , 它 能 够 提供 可 靠 的 通过 物理 介质 传 


输 数 据 的 方法 


第 1 层 | 物理 层 (Physical) 利用 传输 介质 为 数据 链 路 层 提供 物理 连接 ， 它 规范 了 网 络 硬件 的 特性 、 
规格 和 传输 速度 


网 络 协议 中 较为 重要 的 无 非 是 TCP/IP 协议 ， 它 是 互联 网 的 基础 协议 ， 没 有 它 就 无 法 上 网 、 聊 
天 、 看 视频 。 当 然 ， 除 了 TCP/IP 协议 还 有 UDP 协议 、ICMP 协议 、HTTP 协议 、DNS 协议 等 ， 如 
果 读 者 想 了 解 更 多 的 内 容 ， 建 议 上 网 查看 相关 协议 文档 。 

TCP/IP 协议 不 是 TCP 和 IP 协议 的 合 称 ， 它 是 因特网 整个 网 络 TCP/IP 协议 族 。 这 个 协议 族 的 
体系 结构 并 不 完全 符合 OSI 七 层 参考 模型 ， 它 由 四 个 层次 组 成 : 网 络 接口 层 、 网 络 层 、 传 输 层 和 
应 用 层 。 它 与 OSI 模型 对 应 关系 如 表 13.2 所 示 。 


表 13.2 TCPIIP 结构 与 OSI 模型 结构 对 应 关系 
































| TcPnP OSI 
应 用 层 (Telnet、FTP、HTTP、DNS、SNMP 和 SMTP 等 ) 应 用 层 
表示 层 
会 话 层 





网 络 层 (IP、ICMP 和 1GMP) 
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( 续 表 ) 
TcePIIP OSI 
网 络 接口 层 〈 以 太 网 、 令 牌 环 网 、FDDI、IEE802.3 等 ) 数据 链 路 层 
物理 层 





至 于 每 层 的 功能 及 其 包含 的 协议 定义 ， 请 查找 相关 资料 进行 了 解 。 


13.1.2 IP 地址 与 端口 


IP (Internet Protocol) 是 计算 机 网 络 相 互 连 接 进行 通信 而 设计 的 协议 ， 位 于 TCP/IP 协议 族 结 
构 体 系 网 络 层 中 。 它 是 所 有 计算 机 网 络 实现 相互 通信 的 一 套 规则 , 规定 了 计算 机 在 因特网 上 进行 通 
信 时 应 当 遵 守 的 规则 。 因 此 ， 任 何 计算 机 系统 只 要 遵守 IP 协议 就 可 以 与 因特网 互 连 互通 。 了 PP 协议 
也 可 以 叫 作 “因特网 协议 ”。 
IP 协议 是 利用 IP 地 址 在 主机 之 间 进 行 传递 信息 ， 这 是 因特网 能 够 运行 的 基础 。 因 特 网 每 一 台 
主机 都 有 一 个 唯一 的 IP 地 址 。IP( 指 IPV4) 地 址 的 长 度 为 32 位 (共有 2^32 个 全 地 址 ) ， 分 为 4 
段 ， 每 段 8 位 ， 用 十 进 制 数 字 表 示 ， 每 段 数 字 范 围 为 0 一 255， 段 与 段 之 间 用 句点 隔 开 ， 如 
172.168.1.100。IP 地 址 由 网 络 标识 号 码 与 主机 标识 号 码 两 部 分 组 成 ， 因 此 IP 地 址 可 分 两 部 分 组 成 ， 

部 分 为 网 络 地 址 ， 另 一 部 分 为 主机 地 址 。IP 地 址 分 为 A、B、C、D、E5 类 ， 它 们 适用 的 类 型 分 

别 为 大 型 网 络 、 中 型 网 络 、 小 型 网 络 、 多 目地 址 及 备用 。 常 用 的 是 B 和 C 两 类 。 

可 以 在 网 络 和 共享 中 心 打 开本 地 连接 一 详细 信息 查看 ， 如 图 13.1 所 示 。 
































网 绝 连 接 详细 信息 D3 
网 络 连 接 详细 信息 0): 
属性 值 网 
连接 特定 的 DNS 后 旨 | 
损 述 Broadcom NetXtreme Gigabit Etl 
物理 地 址 AC-87-A3-2F-F1-A4 
已 启用 DHCP 是 
IPv4 地 址 172. 188. 1. 100 
IPv4 子 网 撞 码 255. 255. 255.0 
获得 租约 的 时 间 2018 年 4 月 13 日 18:21:35 | 
租约 过 期 的 时 间 2018 年 4 月 14 日 1:21:36 
IPv4 默认 了 网关 172. 168.1.1 
IPv4 DHCP 服务 器 172. 168.1.1 
IPv4 DNS 服务 器 192.168.1.1 
172. 168.1.1 | 
IPv4 MTNS 服务 器 时 
已 启用 HetBIOS ove... 是 
连接 -本 地 IPv6 地 址 。 fe80: :1978:4443:6452: a49%15 
I 网 关 
<| 到 | 
[2¥ae | 

















图 13.1 IP 地 址 查看 方式 一 
也 可 以 运行 cemd 进入 控制 台 ， 然 后 输入 ipconfig 命令 查看 ， 如 图 13.2 所 示 。 
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Windows\system32\cmd.exe 














图 13.2 IP 地 址 查看 方式 二 





由 于 IP 地 址 使 用 纯 数 字 不 便于 记忆 ， 通 常会 使 用 主机 名 来 代替 IP 地 址 ， 比 如 输入 baidu.com 
就 可 以 访问 百度 了 ， 至 于 baidu.com 是 如 何 解析 到 IP 地 址 就 涉及 前 面 所 提 到 过 的 DNS 协议 。 

端口 是 计 算 机 与 外 界 进行 通讯 交流 的 出 入 口 ， 这 个 端口 可 指 硬 件 接口 ， 又 可 指 TCP/TIP ws 
中 的 端口 。 我们 这 里 讲述 的 端口 是 网 络 中 进行 通信 的 通信 协 议 端口 ,是 一 种 抽象 的 软件 结构 ， 包 
下 - 些 数据 结构 和 基本 输入 输出 缓冲 区 。 端 口号 的 范围 为 0~65535， 任 何 由 TCP/IP 提供 的 服务 皆 

上 于 1~1023 端口 号 进行 通信 ， 这 些 端口 号 由 IANA 分 配 管理 。 其 中 ， 低 于 255 的 端口 号 保留 用 于 

ed 255~1023 的 端口 号 用 于 特殊 应 用 ， 对 于 高 于 1023 的 端口 号 ， 则 称 为 临时 端口 号 ， 常 用 
于 软件 服务 。 

常用 的 保留 TCP 端口 号 有 HTTP 80、FTP 20/21、Telnet 23、SMTP 25、DNS 53 等 。 





13.1.3 socket 


socket 是 网 络 通信 端口 的 一 种 抽象 ,具体 来 说 就 是 两 个 程序 通过 一 个 双向 通信 连接 实现 数据 的 
交换 ， 而 这 个 连接 的 一 端 就 是 一 个 socket。socket 也 称 作 套 接 字 ， 用 于 描述 卫 地 址 和 端口 ， 是 一 个 
通信 链 的 句柄 ， 可 以 用 来 实现 不 同 计算 机 之 间 的 通信 。 可 以 把 socket 形象 地 描述 为 一 个 多 孔 插 座 ， 
不 同 编号 的 插座 得 到 不 同 的 服务 。 

socket 是 应 用 层 与 TCP/IP 协议 族 通 信 的 中 间 软 件 抽象 层 ， 是 架设 在 应 用 层 与 传输 层 之 间 的 桥 
梁 。socket 所 处 TCP/IP 协议 族 位 置 示意 图 如 图 13.3 所 示 。 
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媒体 
图 13.3 socket 所 处 TCP/IP 协议 族 位 置 示意 图 


在 Python 中 ， 通 过 socket 模块 实现 网 络 通 信 ， 该 模块 提供 了 一 个 底层 的 C API。 从 该 模块 源 代码 


可 以 看 出 它 提 供 了 一 系列 函数 、 特 殊 对 象 、 类 常量 等 。 其 中 socket 类 是 该 模块 中 较为 重要 的 概念 。 


建 一 
两 个 
层 协 


常用 
域 套 
操作 


socket 模块 提供 了 一 个 socket 类 ， 该 类 的 名 称 是 小 写 ， 正 常情 况 下 是 以 大 写 定义 类 名 称 
的 。 





socket 类 定义 如 下 : 
class socket (_socket .socket) : 
def _ init (self, family=AF INET, type=SOCK STREAM, proto=0, fileno=None): 

pass 
从 该 类 的 定义 来 看 ， 它 是 _socket.socket 的 子 类 ， 根 据 给 定 的 地 址 簇 、 套 接 字 类 型 和 协议 号 创 
个 新 的 socket。 因此 , 我 们 可 以 看 出 套 接 字 是 通过 (address family) 和 套 接 字 类 型 (sockettype) 
主要 属性 控制 如 何 发 送 数 据 的， 其 中 地 址 簇 控制 所 用 OSI 网 络 层 协议 ， 套 接 字 类 型 控制 传输 
议 。 
套 接 字 地 址 簇 可 取 值 有 AF_INET (默认 ) 、AF_INET6、AF_UNIX、AF_CAN 或 AF_RDS 等 。 
是 AF_INET, 用 于 IPv4 Internet 寻 址 .AF_INIET6 用 于 IPv6 Internet 寻 址 .AF_UNIX 是 UNIX 
接 字 (UDS) 的 地 址 徐 ， 是 一 种 POSIX 兼容 系统 上 的 进程 间 通 讯 协议 。UDS 的 实现 通常 允许 
系统 直接 从 进程 向 进程 传递 数据 而 不 需 通过 网 络 栈 ， 因 此 UDS 比 AF_INET 更 为 高 效 。 
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AF_UNIX 常量 仅 在 支持 UDS 的 系统 上 定义 ， 其 他 地 址 往 不 太 使 用 ， 这 里 不 做 介绍 。 





套 接 字 类 型 可 以 为 SOCK_STREAM( 默 认 )、 SOCK DGRAM、SOCK RAW 或 为 其 他 SOCK 
中 的 某 个 常量 。SOCK_STREAM 对 应 传输 控制 协议 (TCP) ，TCP 传输 需要 握手 或 其 他 设置 过 程 ， 
因此 能 够 确保 每 条 消息 只 传送 一 次 ,并 且 是 按 正 确 顺序 传送 ， 从 而 增加 了 可 靠 性 ， 不 过 会 引入 额外 
的 延迟 。UDP 则 相反 ， 它 传送 没有 顺序 ， 并 且 可 能 多 次 传送 或 不 传送 ， 适 用 于 对 顺序 不 太 重 要 的 
协议 或 广播 。 

协议 编号 proto 通常 为 零 ， 可 以 省 略 。 

由 socket 类 创建 的 socket 对 象 具有 一 系列 方法 及 属性 。 我 们 以 变量 sock 作为 返回 对 象 进行 总 
结 ， 如 表 13.3 所 示 。 








表 13.3” 套 接 字 方 法 /属性 及 其 描述 









































名 称 述 

服务 器 套 接 字 方 法 

sock.bindO | 将 地 址 〈 主 机 名 、 端 口号 对 ) 绑 定 到 套 接 字 上 

socklisten0 设置 并 启动 TCP 监听 器 

sock.acceptO 被 动 接受 TCP 客户 端 连接 ， 一 直 等 待 直 到 连接 到 达 〈 阻 塞 ) 
客户 端 套 接 字 方 法 

Isock.connect() 主动 发 起 TCP 服务 器 连接 

sock.connect_exO |eonnect0 的 扩展 版 本 ， 此 时 会 以 错误 码 的 形式 返回 问题 ， 而 不 是 抛 出 一 个 异常 
| 普通 的 套 接 字 方 法 

sock.recv() | 接收 TCP 消息 

sock.recv_into() | 接收 TCP 消息 到 指定 的 缓冲 区 

lsock.send() 发 送 TCP 消息 

sock.sendall() 完整 地 发 送 TCP 消息 

lsock.recvfrom() 接收 UDP 消息 

sock.recvfrom_into() | 接收 UDP 消息 到 指定 的 缓冲 区 

sock.sendto() 发 送 UDP 消息 

lsock.getpeername() 和 连接 到 套 接 字 TCP〉 的 远程 地 址 

lsock.getsockname() 当前 套 接 字 的 地 址 

sock.getsockoptO 返回 给 定 套 接 字 选项 的 值 

lsock.shutdown() 关闭 连接 

sock.share() 复制 套 接 字 并 准备 与 目标 进程 共享 

lsock.close() 关闭 套 接 字 

sock.detach() | 在 未 关闭 文件 描述 符 的 情况 下 关闭 套 接 字 ， 返 回 文件 描述 符 
sock.ioctl() | 控制 套 接 字 的 模式 〔 仅 支持 Windows) 
面向 阻塞 的 套 接 字 方法 
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( 续 表 ) 

名 称 瞻 述 
lsock.setblocking() 设置 套 接 字 的 阻塞 或 非 阻塞 模式 
lsock.gettimeout() 获取 阻塞 套 接 字 操 作 的 超时 时 间 
面向 文件 的 套 接 字 方法 
sockfileno0) 套 接 字 的 文件 描述 符 
sock.makefile() | 创建 与 套 接 字 关联 的 文件 对 象 
数据 属性 
Sock.family 性 接 字 家 族 
sock.type 套 接 字 类 型 
sock.proto 套 接 字 协 议 

当然 ，socket 模块 除了 socket 类 外 ， 还 有 一 些 功 能 函数 、 常 量 及 异常 。 这 里 仅 对 一 些 常 用 的 功 
能 函数 做 简单 介绍 。 


socket.socketpair() 函 数 根据 给 定 的 地 址 簇 、 套 接 字 类 型 和 协议 号 创建 一 对 已 连接 的 socket 对 象 。 





该 函数 在 Python 3.5 才 支 持 Windows。 





socket.create_connection() 函 数 创建 一 个 TCP 服务 监听 网 络 地 址 (一 维 数组 (主机 、 端 口 )) 的 连 
接 ， 并 返回 套 接 字 对 象 。 这 个 函数 是 比 socket.connect0 更 为 高 级 的 函数 ， 如 果 主 机 是 一 个 非 数 字 的 
主机 名 ， 它 将 试图 解析 AF_INET 和 AF_INET6， 然 后 尝试 连接 所 有 可 能 的 地 址 ， 直 到 连接 成 功 。 
这 使 它 易 于 编写 IPv4 和 IPv6 是 兼容 的 客户 端 程序 。 

socket.SocketType 为 套 接 字 对 象 类 型 的 Python 类 型 对 象 ， 等 同 于 type(socket(...))。 

socket.getaddrinfo() 函 数 将 主机 /端口 参数 转换 为 五 元 组 序列 ， 该 序列 包含 创建 连接 服务 套 接 字 
的 所 有 参数 。 参 数 host 和 port 为 必 选 ， 参 数 type、proto、flags 皆 为 0。 


In [1]: import socket 








In [2]: socket.getaddrinfo ("baidu.com", port=80) 

Out [2] : 

[ (<AddressFamily.AF INET: 2>, 0, 0, '', ('111.13.101.208', 80)), 
(<AddressFamily.AF INET: 2>, 0, 0, '', ('220.181.57.216', 80))] 


从 返回 结果 可 以 看 到 域名 所 对 应 的 IP 地 址 , 也 可 以 得 知 百度 域名 对 应 的 IP 有 两 个 。 事实 上 该 
函数 返回 的 五 元 组 结构 (family, type, proto, canonname, sockaddr) 如 下 : 


In [3]: socket.getaddrinfo ("example.org", 80, proto=socket.IPPROTO TCP) 
Out [3]: 

[(<AddressFamily.AF INET: 2>, 0, 6, '', ('93.184.216.34', 80)), 
(<AddressFamily.AF INET6: 23>, 

0, 

6， 


("2606:2800:220:1:248:1893:25c8:1946'，80，0，0))] 
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从 上 面 两 个 实例 看 出 ，sockaddr 在 IPv4 上 是 一 个 二 元 组 (addess, port)， 在 IPv6 上 是 一 个 四 元 
组 (address, port, flow into, scope id) 。 

socket.getfqdn() 函 数 返回 限制 域名 名 称 。 如 果 参 数 name 为 省 略 或 空 ， 就 解释 为 本 地 主机 。 下 
面 用 代码 演示 : 

In [6] : socket.getfqdn() 


Out [6] : "rontom-PC'" 


In [7] : socket.getfqdn('baidu.com') 
out [7] : "baidu.com'" 


In [8] : socket.getfqdn('111.13.101.208') 
out [8] : "111.13.101.208" 


socket.gethostbyname() 函 数 将 主机 名 转换 为 IPv4 地 址 格式 。 参 数 hostname 既 可 为 主机 名 也 可 
为 IPv4 地 址 。 为 IPv4 地 址 返回 不 变 。 








该 函数 不 支持 IPv6 名 称 解析 。 





In [9] : socket .gethostbyname ('baidu.com') 
out [9] : '111.13.101.208" 


In [10] : socket.gethostbyname ('111.13.101.208') 
out [10]: '111.13.101.208" 


socket.gethostbyname_ex() 转 主机 为 IPv4 地 址 格式 的 扩展 接口 。 返 回 一 个 三 元 组 (hostname， 
aliaslist，ipaddrlist)， 其 中 aliaslist 列表 (可 能 为 空 ) 的 替代 为 同一 地 址 ， 主 机 名 可 能 对 应 ipaddrlist 
的 元 素 不 只 一 个 。 


In [12] : socket.gethostbyname ex('baidu.com') 
out [12] : ('baidu.com', [], ['220.181.57.216', '111.13.101.208']) 


从 代码 中 可 以 看 到 主机 baidu.com 对 应 了 两 个 人 P 地 址 。 
socket.gethostname() 返 回 包含 机 器 主机 名 的 字符 串 ， 执 行 于 Python 解析 器 中 。 


In [13]: socket .gethostname () 
Out [13] : 'rontom-PC'" 


更 多 的 信息 可 以 查看 表 13.4， 该 表 对 整个 socket 模块 的 属性 、 异 常 、 方 法 进行 了 说 明 。 
表 13.4 socket 模块 属性 、 异 常 、 方 法 及 其 描述 


属性 名 称 功能 描述 
数据 属性 

AF_UNIX、 AF INET、 AF INET6 、 
AF NETLINK ~ AF TIPC 











Python 中 支持 的 套 接 字 地 址 家 族 








SO_STREAM、 SO_DGRAM 套 接 字 类 型 (TCP= 流 ，UDP= 数 据 报 ) 
lhas_ipv6 指示 是 否 支 持 IPv6 的 布尔 标记 











异常 
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( 续 表 ) 
属性 名 称 功能 描述 
error 套 接 字 相关 错误 
herror 主机 和 地 址 相关 错误 
gaierror 地 址 相关 错误 
jltimeout 超时 时 间 
方法 
以 给 定 的 地 址 家 族 、 套 接 字 类 型 和 协议 类 型 (可 选 ) 创建 一 个 套 接 字 对 

socket() 象 

、 以 给 定 的 地 址 家 族 、 套 接 字 类 型 和 协议 类 型 可 选 ) 创建 一 对 套 接 字 对 | 
socketpair() 


象 





create_connection() 
fromfd() 

ssl0 

getaddrinfo() 
getnameinfo() 
getfadn() 
gethostname( ) 
gethostbyname() 


gethostbyname_ex() 


gethostbyaddr() 
getprotobyname() 
getservbyname()/getservbyport() 


IntohlOmtohsO) 





常规 函数 ， 它 接收 一 个 地 址 〈 主 机 名 ， 端 口号 )》 对 ， 返 回 套 接 字 对 象 
以 一 个 打开 的 文件 描述 符 创建 一 个 套 接 字 对 象 

通过 套 接 字 启动 一 个 安全 套 接 字 层 连接 ， 不 执行 证 书 验证 

获取 一 个 五 元 组 序列 形式 的 地 址 信息 

给 定 一 个 套 接 字 地 址 ， 返 回 (主机 名 ， 端 口号 ) 二 元 组 

返回 完整 的 域名 

返回 当前 主机 名 

将 一 个 主机 名 映射 到 它 的 IP 地 址 

gethostbyname0) 的 扩展 版 本 ， 它 返回 主机 名 、 别 名 主机 集合 和 IP 地址 
列表 

将 一 个 IP 地 址 映射 到 DNS 信息 ; 返回 与 gethostbyname_ex() 相 同 的 
3 元 组 

将 一 个 协议 名 〈 如 'tcp”) 映射 到 一 个 数字 

将 一 个 服务 名 映射 到 一 个 端口 号 ， 或 者 反 过 来 ; 对 于 任何 一 个 函数 来 说 
协议 名 都 是 可 选 的 

将 来 自 网 络 的 整数 转换 为 主机 字 节 顺序 


























htonlOmhtonsO) 


将 来 自主 机 的 整数 转换 为 网 络 字 节 顺序 





inet_aton()/inet_ntoa() 


inet_pton()/inet_ntopO 


将 IP 地 址 八进制 字符 串 转 换 成 32 位 的 包 格式 ， 或 者 反 过 来 〈 仅 用 于 | 
IPv4 地 址 ) 

将 IP 地 址 字符 串 转换 成 打包 的 二 进 制 格式 ， 或 者 反 过 来 〈 同 时 适用 于 | 
IPv4 和 IPv6 地 址 ) 








getdefaulttimeout()/setdefaulttimeout() 


以 秒 〈 浮 点 数 ) 为 单位 返回 默认 套 接 字 超时 时 间 ; 以 秒 〈 浮 点 数 ) 单位 
设置 默认 套 接 字 超 时 时 间 





接 下 来 将 利用 socket 模块 处 理 网 络 程序 。 
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13.2 使 用 TCP 的 服务 器 与 客户 端 


传输 控制 协议 “Transmission Control Protocol，TCP) 是 一 种 面向 连接 的 、 可 靠 的 、 基 于 字 节 
流 的 传输 层 通信 协议 ,由 IETF 的 RFC 793 定义 。 位 于 IP/TCP 模型 中 的 传输 层 ， 即 处 在 卫 层 之 上 、 
应 用 层 之 下 的 中 间 层 ， 因 此 它 的 数据 传输 必须 经 过 IP 层 。 

从 TCP 定义 来 看 ，TCP 协议 是 一 种 可 靠 的 协议 ， 用 于 在 不 可 靠 的 互联 网 络 上 提供 可 靠 、 端 对 
端的 字 节 流传 输 服务 。 

当 应 用 层 向 TCP 层 发 送 用 于 网 间 传 输 、 用 8 位 字 节 表示 的 数据 流 ，TCP 则 把 数据 流 分 割 成 适 
当 长 度 的 报 文 段 , 然后 将 离散 的 报 文 组 装 成 比特 流 。 为 了 保障 数据 的 可 靠 传 输 , 会 对 从 应 用 层 传送 
到 TCP 实体 的 数据 进行 监管 并 提供 重 发 机 制 。 





13.2.1 TCP 工作 原理 


TCP 为 了 保证 数据 不 发 生 丢失 ， 对 传输 数据 按 字 节 进 行 了 编号 ， 编 号 的 目的 是 为 了 保证 传送 
到 接收 端的 数据 能 够 按 序 接收 。 接收 端 会 对 已 经 接收 的 数据 发 回 一 个 确认 。 若 发 送 端 在 规定 时 间 内 
未 收 到 有 编号 的 数据 时 ， 则 将 重新 传送 前 面 的 数据 。 

TCP 并 不 会 像 我 们 一 样 使 用 顺序 的 整数 作为 数据 包 的 编号 ， 而 是 通过 一 个 计数 器 记录 发 送 的 
字 节 数 。 举 个 例子 ， 如 果 数 据 流 被 切割 为 几 个 包 ， 其 中 某 个 包 大 小 为 1024 字 节 ， 序 号 为 3600， 那 
么 下 一 个 数据 包 的 序号 就 是 4624。 这 说 明 网 络 栈 无 须 记录 数据 流 是 如 何 分 割 成 数据 包 的 , 而 且 TCP 
初始 序列 号 是 随机 选择 的 ， 这 样 可 以 避免 TCP 序号 易于 猜测 而 被 伪造 数据 进行 欺骗 或 攻击 。 

TCP 无 须 按照 数据 包 依次 发 送 ， 它 可 以 一 次 性 发 送 多 个 数据 包 ， 对 通过 发 送 方 同时 传输 的 数 
据 量 大 小 进行 减缓 或 暂停 ， 即 所 谓 的 流量 控制 。 

TCP 如 果 发 现 数据 包 丢 弃 ， 就 会 减少 每 秒 发 送 的 数据 量 。 

根据 前 面 所 讲 的 socket 模块 ， 我 们 如 何 进 行 TCP 通信 了 呢 ? 

首先 从 服务 器 开始 ， 初 始 化 Socket， 然 后 绑 定 (bind) 端口 并 对 端口 进行 监听 (listen) ， 最 
后 调用 accept 阻塞 ， 等 待 客户 端 连接 。 客 户 端 发 送 数据 请 求 ， 服 务 器 端 接收 请 求 并 处 理 请 求 ， 然 
后 把 回应 数据 发 送 给 客户 端 ， 客 户 端 读 取 数 据 ， 最 后 关闭 连接 ， 一 次 交互 结束 。 

TCP 通信 模式 如 图 13.4 所 示 。 
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TCP 服 务 笑 端 






TCF 客户 端 


socket) 

















13.4 ”TCP 通信 模式 


13.2.2 TCP 服务 器 的 实现 


在 使 用 Python 进行 网 络 编程 时 ， 大 部 分 网 络 通信 和 是 基于 TCP 的 ， 当 然 也 有 可 能 基于 下 节 要 
讲 的 UDP。 

【示例 13-1】 

我 们 将 使 用 socket 模块 相关 知识 实现 一 个 简易 的 TCP 服务 器 。 首 先 创 建 一 个 TcpServer.py 文 
件 ， 输 入 如 下 代码 : 


01 import socket 
02 from time import ctime 


04 HOST = 'localhost' 

05 PORT = 5008 

06 BUF SIZE = 1024 

07 ADDRESS = (HOST, PORT) 


08 

09 if name == ' main ': 

10 # 新 建 socket 连接 

i server socket = socket.socket (socket.AF INET, socket.SOCK STREAM) 
12 # 将 套 接 字 与 指定 的 ip 和 端口 相连 

13 server socket .bind (ADDRESS) 


14 # 启动 监听 ， 并 将 最 大 连接 数 设 为 5 


JS server socket.listen(5) 
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16 print ("[***] 正在 监听 : %s:%sdq" 8 (HOST，PORT) ) 

3 # setsocketopt () 函数 用 来 设置 选项 ， 结 构 是 setsocketopt (level, optname, value) 
18 # level 定义 了 哪个 选项 将 被 使 用 ， 通 常 是 SOL_SOCKET, 意思 是 正在 使 用 的 socket 选项 。 
19 # socket .SO_REUSEADDR 表示 socket 关闭 后 ， 本 地 端 用 于 该 socket 的 端口 号 立刻 就 可 以 被 重用 。 
20 # 通常 来 说 ， 只 有 经 过 系统 定义 一 段 时 间 后 才能 被 重用 。 

2 server socket . setsockopt (socket.SOL SOCKET, socket.SO REUSEADDR, 1) 
4 while True: 

23 Print (u' 服 务 器 等 待 连接 . . .'") 

24 # 当 有 连接 时 ， 将 接收 到 的 套 接 字 存 到 client_sock 中 ， 远 程 连接 细节 保存 到 address 中 
25 client sock, address = server socket.accept() 

26 print (u' 连接 客户 端 地 址 : '，address) 

> while True: 

28 # 打印 客户 端 发 送 的 消息 

29 data = client sock.recv (BUF SIZE) 

30 if not data or data.decode ('utf-8') == 'END': 

5 break 

32 print ("来 自 客户 端 信息 : ss" % data.decode('utf-8')) 

33 print ("发 送 服务 器 时 间 给 客户 端 %s" % ctime()) 

34 try: 

35 # 发 送 时 间 

36 client_sock.send (bytes (ctime () ， 'utf-8')) 

3 except KeyboardInterrupt: 

38 print ("用 户 取消 ") 

39 # 关闭 客户 端 socket 

40 client sock.close() 

41 # 关闭 socket 

42 server_socket .close() 


代码 注释 写 得 很 清楚 了 , 这 里 就 不 对 代码 做 进一步 的 解释 了 。 运行 上 面 的 代码 ,结果 如 图 13.5 
所 示 。 


rs \rontom> 
ers\rontom>python3 TcpServer.py 





13.2.3 TCP 客户 端的 实现 


【示例 13-2】 
为 了 便于 理解 TCP 连接 ， 我 们 使 用 TcpServer.py 提供 端口 和 服务 。 在 文件 TepServer.py 同 目 
录 下 创建 一 个 TcpClient.py 文件 ， 输 入 代码 如 下 : 


01 import socket 

02 import sys 

03 

04 HOST = 'localhost' 
05 PORT = 5008 


第 13 章 ”socket 模块 一 网 络 编程 | 249 





06 
07 if name == ' main ": 

08 try: 

09 sock = socket.socket (socket .AF INET, socket.SOCK STREAM) 

10 except socket.error as err: 

证 让 Print (u" 创 建 socket 实例 失败 ") 

12 Print (u" 原 因 : %s" % str(err)) 

13 sys.exit(); 

14 

15 print (u"socket 实例 创建 成 功 !") 

16 try: 

7 sock.connect ( (HOST, int (PORT))) 

18 Print (u"Socket 已 经 连接 上 目标 主机 : ss ， 连 接 的 目标 主机 端口 : %$s" % (HOST, PORT) ) 
19 sock.shutdown (2) 

20 except socket .error as err: 

2 Print (u" 连 接 主机 : %s 端口 ，%s 失败 ! " % (HOST, PORT)) 

&2 print (u" 原 因 : %s" % str(err)) 

23 sys.exit (); 


这 里 使 用 的 主机 和 端口 与 TcpServer.py 相对 应 ,便于 测试 连接 情况 。 运 行 结果 如 图 13.6 所 





14:84471935ed, Sep 16 2817, 28:19:38> [MSC v.1588 32 bit 《In| 


opyright", “credits"” or “license’ for more information. 


s rontompython3 TcpSeruer-py 
在 监听 : localhost:5998 


C127.0.0.1’,. 59609> 


C127.0.0.1’,. 59696> 


oft Windows [上 乳 本 6.1.7681] 
有 【《 B89 Microsoft Corporation 





图 13.6 TcpClientpy 运行 结果 


我 们 可 以 修改 一 下 TcpClientpy， 通 过 用 户 输入 TCP 服务 器 地 址 和 端口 进行 测试 连接 。 
【示例 13-3】 
新 建文 件 TcpClientEx.py， 输 入 如 下 代码 : 


01 import socket 
02 import sys 





03 
04 if name 和 

05 try: 

06 sock = socket.socket (socket .AF INET， socket .SOCK STREAM) 


07 except socket.error as err: 
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08 print (u" 创 建 socket 实例 失败 ") 

09 print (u" 原 因 : ss"” % str(err)) 

10 sys.exit(); 

11 

12 print (u"socket 实例 创建 成 功 !") 

13 

14 HOST = input(u" 输 入 目标 主机 : ") 

15 PORN = input(u" 输 入 目标 主机 端口 : ") 

16 

17 try: 

18 Sock .connect ( (HOST, int (PORN) ) ) 

19 print (u"Socket 已 经 连接 上 目标 主机 : ss ， 连 接 的 目标 主机 端口 : $s" % (HOST，PORN) ) 
20 sock.shutdown (2) 

25 except socket .error as err: 

22 Print (u" 连 接 主机 : $s 端口 : ss 失败 ! " % (HOST， PEORN) ) 
23 print (u" 原 因 : %s" % str(err)) 

24 sys.exit (); 


运行 结果 如 图 13.7 所 示 。 


。59699》 


“。59696? 


» 69051> 


: 5988 














图 13.7 TcepClientEx.py 运行 结果 


13.3 使 用 UDP 的 服务 器 与 客户 端 


用 户 数 据 报 协议 (User Datagram Protocol, UDP) 是 OSI 参考 模型 中 一 种 无 连接 的 传输 层 协议 ， 

它 提供 面向 事务 的 简单 不 可 靠 信息 传送 服务 。 
与 TCP 协议 一 样 ，UDP 在 网 络 中 用 于 处 理 数据 包 ， 不 过 它 只 负责 将 应 用 层 的 数据 发 送出 去 ， 
不 具备 差错 控制 和 流量 控制 功能 。 因 此 在 传送 过 程 中 如 果 数 据 出 错 须 由 高 层 协议 处 理 。 由 于 UDP 
不 需要 具备 差错 控制 和 流量 控制 等 功能 的 开销 使 得 数据 传输 效率 高 、 延 时 小 , 适合 对 可 靠 性 要 求 不 
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高 的 应 用 ， 如 视频 点 播 、QQ 等 。 


13:3 生 JUDP 工作 原理 


UDP 使 用 底层 互联 网 协议 传送 报 文 ， 提 供 不 可 靠 的 、 无 连接 的 数据 包 传输 服务 。UDP 在 人 P 
报 文 的 协议 号 为 17, 其 报 文 是 封装 在 IP 数据 报 中 进行 传输 的 UDP 报 文 由 UDP 源 端 口 字 段 、 UDP 
目标 端口 字段 、UDP 报 文 长 度 字段 、UDP 校 验 和 字段 及 数据 区 组 成 。 首 先 通 过 端口 机 制 进行 复 用 
和 分 解 ， 每 个 UDP 应 用 程序 在 发 送 数据 报 文 之 前 必须 与 操作 系统 协商 获取 相应 的 协议 端口 及 端口 
号 , 然后 根据 目的 端口 号 进行 分 解 ， 接 收 端 使 用 UDP 的 校 验 和 进行 确认 ， 以 查看 UDP 报 文 是 否 正 
确 到 达 目 标 主机 的 相应 端口 。 


13.3.2 UDP 服务 器 的 实现 


由 于 UDP 无 须 进行 流量 控制 和 差错 控制 ， 因 此 UDP 服务 器 相 比 TCP 服务 器 会 简单 很 多 。 
【示例 13-4】 
我 们 使 用 之 前 讲 的 socket 模块 实现 一 个 简单 UDP 服务 器 。 新 建 UdpServer.py 文件 , 输入 如 下 
代码 : 


01 import socket 


03 MAX SIZE = 5600 

04 ”# 新 建 socket 连接 

05 sock = socket.socket (socket.AF INET, socket .SOCK DGRAM) 
06 “# 绑 定 主机 和 端口 ， 主 机 为 空 表示 任意 主机 

07 sock.bind(('localhost', 8005)) 


09 while True: 

10 print (u' 服 务 器 等 待 连接 . . . ") 

ES # 当 有 连接 时 ， 将 接收 到 的 数据 存 到 data 中 ， 远 程 连接 细节 保存 到 address 中 
Ee # MAX_SIZE 表示 可 接收 最 长 为 5600 字 节 的 信息 

1 data, address = sock.recvfrom(MAX SIZE) 

14 data = data.decode () 

5 resp = "UDP 服务 器 在 发 送 数据 " 

16 # 发 送 数 据 包 


和 sock.sendto (resp.encode(), address) 

UDP 与 TCP 新 建 socket 连接 不 同 的 是 socket.socket() 第 二 个 参数 ，TCP 使 用 
socket.SOCK_STREAM， 而 UDP 使 用 socketSOCK_DGRAM。 上 述 代码 运行 结果 如 图 13.8 所 示 。 
在 网 络 传输 发 送 接收 数据 以 bytes 进行 , 而 不 是 string, 不 然 会 报错 : TypeError: a bytes-like object is 
required, not 'str ,因此 在 传输 过 程 可 以 通过 encode() 或 decode() 进 行 编码 或 解码 ,如果 是 str 转 bytes， 
就 进行 编码 ， 比 如 上 面 代 码 要 发 送 resp 消息 时 必须 进行 编码 以 转 成 bytes; 如 果 是 bytes， 就 通过 
decode() 进 行 解码 。 
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画 C\Windows\system32\cmd.exe - python3 UdpServer.py 


i oft Windows [由 本 6.1.?681] 
所 有 《ec》2889 Microsoft Corporation。 保 留 所 有 权利 


python3 UdpServer.py 


图 13.8 ”UdpServer.py 运行 结果 


13.3.3 UDP 客户 端的 实现 


【示例 13-5】 
我 们 可 以 根据 UdpServer.py 创建 一 个 客户 端 UdpClient.py 以 发 送 
验证 ， 代 码 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
时 下 
12 
13 
14 
15 
16 
el 
18 


import socket 
MAX SIZE = 5600 
# 新 建 socket 连接 


sock = socket.socket (socket .AF INET, socket .SOCK DGRAM) 


MESSAGE = "UDP 服务 器 ， 你 好 ! [握手 中 . ..]" 


if _name ==" main ": 
# 输入 主机 
HOST = input(u" 输 入 目标 主机 : ") 
# 输入 端口 
PORT = int (input (u" 输 入 目标 主机 端口 : ")) 
# 发 送 数据 包 


sock.sendto (MESSAGE .encode (), (HOST， PORT)) 
data, address = sock.recvfrom(MAX SIZE) 
print ("来 自 UDP 的 回复 :") 


print (repr (data.decode () ) ) 


运行 代码 结果 如 图 13.9 所 示 。 


通过 输入 UDP 服务 器 地 址 和 端口 ， 然 











些 数 据 到 UDP 服 多 


解析 ， 接 着 做 出 回复 。 图 上 的 “UDP 服务 器 在 发 送 数据 ”就 是 UDP 服务 器 回复 的 数据 。 


下 
人 


进行 


向 其 发 送 数据 ， 端 口 UDP 服务 器 接收 到 数据 并 进行 
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丽 C\Windows\system32\cmd.exe - python3 UdpServer.py 
oft Windows [好 本 ， TE 7681] 


oft Windows [h 反 本 6.1.7681] 


又 所 有 《c》 2889 Microsoft Corporation 
rontom>python3 UdpClient.py 


未 主机 lhost 
未 主机 端口 : 8985 
9 各 Be 村 数据 ， 


分 二 仁 


2: sers rontom> 


图 13.9 ”UdpClient.py 运行 结 
13.4 ”网络 编程 实战 


本 节 将 根据 前 几 节 所 学 的 内 容 创建 一 个 简单 的 聊天 小 应 用 
【示例 13-6】 
新 建文 件 chatpy。 输 入 如 下 代 在 


01 import socket 





02 import argparse 
03 

04 HOST = '127.0.0.1' 
05 PORT = 8080 


06 
07 gef listen socket (host, port): 

08 "nn 监听 socket TCP 连接 """ 

09 sock = Socket .socket (socket.AF INET, socket.SOCK STREAM) 
10 sock.setsockopt (socket .SOL SOCKET, socket.SO REUSEADDR, 1) 
EE # 绑 定 端口 ，host 为 '' ,表示 监 昕 所 以 端口 

12 sock.bind( (host, port)) 

13 # 监听 最 大 连接 数 

14 sock.listen (100) 

15 return sock 

16 

17 gef receive msg(sock): 

18 """ 解析 数 到 数据 """ 

19 data = bytearray () 


20 msg = "" 
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76 msg = receive msg(sock) 

77 print(' 收 到 回复 : ' + msg) 

78 except ConnectionError: 

79 Print('Socket 错误 ') 

80 break 

81 

82 finally: 

83 sock.close() 

84 print(' 关 闭 连接 \n') 

85 

86 if _name '_ main "3 

87 choices = {'client': client, 'server': server} 

88 parser = argparse.ArgumentParser (description=' 聊 天 小 应 用 ') 
89 parser.add argument ('role'，choices=choices，help=' 选 择 角色 : client ,或 者 server。') 
90 args = parser.parse args() 

91 execute = choices[args.role] 


92 execute () 


这 个 小 应 用 不 同 于 之 前 讲 的 地 方 是 ， 这 里 将 客户 端 和 服务 端 写 在 了 同 





台 输 入 命令 行 参 数 执行 。 
执行 python chat.py 会 报 如 下 错误 : 


chat.py [-h] 
chat.py: error: the following arguments are required: 


usage: {client, server} 


role 


因 是 需要 添加 角色 : client 或 server 





执行 python chat.py server， 


-个 文件 中 ， 通 过 控制 


结果 如 图 13.10 所 示 。 





辆 C\Windows\system32\cmd.exe - python3 chat.py server 


Seontom> 

seontom> 
:MUsers Nontom>python3 chat .py server 
正在 监听 "127.-9-9.1' 。8989) 





(len 








图 13.10 ”chat.py server 运行 结果 


笔者 的 系统 环境 安装 了 两 个 版 本 , Python 2 用 于 指向 版 本 2.7, Python 3 用 于 指向 版 本 Python 


3.6, 读者 在 图 中 看 到 的 python3 chatpy server 相当 于 python chat.py server 执行 , 因为 我 们 是 
以 Python 3.x 进行 讲解 的 。 





执行 python chat.py client， 结 果 如 图 13.11 所 示 。 
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CNWindows\system32Vcmd exe - python3 chat py server = 


python3 chat.py server 
C127.0.0.1’. 8880> 
C127.0.0.1’. 49 


7.0.0.1:8880 
按 “enter” 





图 13.11 chat.py client 运行 结果 





输入 信息 后 按 Enter 键 ， 将 会 发 送 输入 的 信息 到 服务 端 ， 执 行 了 client0 函 数 ， 服 务 器 接 到 客户 
端 发 来 信息 ， 然 后 进行 响应 回复 ， 执 行 了 server() 函 数 。 

代码 中 引用 了 Python 标准 库 模 块 argparse。 该 模块 主要 用 于 解析 命令 行 参数 ， 编 写 用 户 友好 
的 命令 行 界面 ， 同 时 该 模块 可 以 生成 帮助 信息 ， 并 且 在 所 给 参数 无 效 时 可 以 报错 。 使 用 argparse 
需要 创建 一 个 ArgumentParser 对 象 ， 然 后 对 该 对 象 通过 add_argument() 添 加 参数 。 
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urllib 是 Python 用 来 处 理 Url 的 工具 包 ， 源 代码 位 于 /Lib/ 下 ， 其 中 包含 request、error、parse 
及 robotparser 模块 。request 模块 用 于 打开 及 读 写 urls， 包 含 由 request 模块 引起 异常 的 error 模块 ; 
parse 模块 用 于 解析 urls; robotparser 模块 用 于 分 析 robots.txt 文件 。 本 章 将 利用 urllib 工具 包 讲 解 网 
络 息 虫 ( 本 书 也 称 候 虫 ) ， 毕 竟 爬 虫 在 如 今 大 数据 采集 中 显得 尤为 重要 。 

本 章 主要 涉及 的 知识 点 有 : 


@ Python 2.x 与 Python3.x 的 urllib* 的 不 同 处 : 掌握 其 不 同 , 便于 以 后 出 现 相关 问题 知道 是 版 本 


不 同 所 导致 的 。 
® request、error、parse 和 robotparser 4 个 模块 的 介绍 : 熟悉 应 用 这 些 模 块 以 便 更 好 地 进行 网 络 
候 虫 实战 。 


e urllib 网 络 疏 虫 : 实战 体验 urllib 网 络 尾 虫 ， 掌 握 基 本 的 网 络 必 虫 方案 。 


14.1 urllib、urllib2 与 urllib3 的 异同 


简单 地 说 ，Python 2.x 包含 urllib、urllib2 模块 ，Python 3.x 把 urllib、urllib2 及 urlparse 都 合成 
到 urllib 包 中 ， 而 urllib3 是 新 增 的 第 三 方 工具 包 。 因 此 我 们 可 以 看 出 Python 3.x 不 像 Python 2.x 模 
块 那样 散乱 ， 而 是 将 相关 的 一 些 模块 打 成 包 ， 这 样 便于 模块 调用 及 其 持续 维护 。 


如 果 在 控制 台中 报 “No module named urllib2”， 说 明 你 安装 的 是 Python 3.x 环境 ， 而 代码 是 
按 Python 2.x 编写 的 。 
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遇 到 像 “No module named urllib2”“No module named parse.urlparse” 等 错误 问题 ， 几 乎 都 是 
因为 Python 版 本 不 同 导致 的 。 表 14.1 为 Python 2.x 下 的 urllib、urllib2、urlparse 模块 及 Python 3.x 
F urllib 包 中 不 同 函 数 或 类 的 调 取 方式 。 


表 14.1 urlib、urllib2、uriparse 模块 及 urllib 包 不 同 函数 或 类 调 取 方 式 
Python 3.x 类 /函数 Python 2 类 /函数 


lurllib.request.urlretrieveO lib.urlretrieveO} 


lurllib.request.urlcleanup() lib.urlcleanupO 
Iurllib.parse.quoteO lib.quote() 








ballib parse.quote_plusO 
ballib parseunquote0 
ballib parseunquote phus0 
Iurllib.parse.urlencodeO) lib.urlencode0) 

Iurllib.requestpathname2urlO libpathname2url0 

lurllib.request.url2pathname() lib.url2pathnameO) 


lrllib request.getproxiesO) 
hallib request URLopener 
lurllib.request.FancyURLopener 
lurllib.error.ContentTooShortEror 
ballib request urlopenO 
pallib request install_openerO 
hrllib request. build_openerO) 











[uibenorURLEmor 
bllib error HTTPError 
bli request Request 
lurllib.request.OpenerDirector 


lurllib.request.BaseHandler rllib2.BaseHandler 
lurllib.request.HTTPDefaultErrorHandler rllib2. HTTPDefaultErrorHandler 
lurllib.request.HTTPRedirectHandler rllib2.HTTPRedirectHandler 
lurllib.request.HTTPCookieProcessor rllib2.HTTPCookieProcessor 
lurllib.request.ProxyHandler lib2.ProxyHandler 
lurllib.request.HTTPPasswordMegr lib2.HTTPPasswordMer 
|urllib.requesLHTTPPasswordMgrWithDefaultRealm lib2.HTTPPasswordMsgrWithDefaultRealm 


lurllib.request.AbstractBasicAuthHandler 
lurllib.request.HTTPBasicAuthHandler 
[urllib.request.ProxyBasicAuthHandler 
lurllib.request.AbstractDigestAuthHandler 
lurllib.request.HTTPDigestAuthHandler 





























lurllib.request.ProxyDigestAuthHandler lib2.ProxyDigestAuthHandler 
lurllib.request.HTTPHandler lib2.HTTPHandler 
lurllib.request.HTTPSHandler lib2.HTTPSHandler 








lurllib.request.FileHandler lib2.FileHandler 
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( 续 表 ) 
Python 3.x 类 /函数 
lurllib.request.FTPHandler 
lurllib.request.CacheFTPHandler lib2.CacheFTPHandler 
lurllib.request.UnknownHandler lib2.UnknownHandler 
lurllib.parse.urlparse 





lurllib.parse.urlunparse 





[urllib.parse.urljoin 





lurllib.parse.urldefrag 





lurllib.parse.urlsplit 





lurllib.parse.urlunsplit 





lurllib.parse.parse_ qs 





lurllib.parse.parse_qsl 











关于 urllib 包 下 的 4 个 模块 有 关 函 数 或 类 将 在 下 面 几 节 分 开 进行 讲解 。 

上 面 提 到 的 urllib3 工具 包 是 一 个 功能 强大 的 、 条 理 清晰 的 、 用 于 HTTP 客户 端的 Python 库 。 
它 提供 了 许多 Python 标准 库 里 所 没有 的 重要 特性 : 线程 安全 、 连 接 池 、 客 户 端 SSL/TLS 验证 、 文 
件 编码 上 传 ,协助 处 理 重复 请 求 和 HTTP 重 定位 、 支 持 压缩 编码 支持 HTTP 和 SOCKS 代理 、100% 
测试 覆盖 率 等 。 
urllib3 安装 很 简单 ， 可 直接 通过 pip 进行 安装 : 
C:\Users\rontom> pip install urllib3 


如 果 想 使 用 最 新 代码 ， 可 从 GitHub 下 载 并 安装 ， 或 者 通过 git 客户 端 安装 : 


C:\Users\rontom> git clone git://github.com/shazow/urllib3.git 





C:\Users\rontom> python setup.py install 
关于 urllib3 有 关 函 数 或 类 的 调用 不 做 太 多 讲解 ， 举 个 简单 的 例子 : 


>>>import urllib3 

>>>http = urllib3.PoolManger () 

>>>req = http.request (‘GET’, ‘http://www.akaros.cn’) 
>>>print (req.status) 

200 


如 果 读 者 想 更 多 了 解 urllib3 包 ， 可 访问 其 文档 地 址 https://urllib3.readthedocs.io/en/latest/。 


14.2 request 模块 





urllib.request 模块 定义 了 在 身份 认证 、 重 定向 、cookies 等 应 用 中 打开 url (主要 是 HTTP) 的 
函数 和 类 。 
在 这 里 需要 提 及 一 下 request 包 ， 该 包 用 于 非 底层 的 、 高 级 的 HTTP 客户 端 接口 ， 它 的 容错 能 
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力 比 request 模块 强大 。request 使 用 的 是 urllib3， 从 其 源 代码 _init_.py 文件 import urllib3 语句 就 
可 以 看 出 。 它 继承 了 urllib2 的 特性 ， 支 持 HTTP 连接 保持 和 连接 池 ， 支 持 使 用 cookie 保持 会 话 ， 
支持 文件 上 传 ， 支 持 自 动 解压 缩 ， 支 持 Unicode 响应 ,支持 国际 化 的 URL 和 POST 数据 自动 编码 ， 
支持 HTTP(S) 代 理 等 。 显 然 这 些 功能 在 Web 开发 中 很 常见 。 如 果 读 者 想 了 解 更 多 关于 request 包 的 
信息 ， 可 访问 其 文档 地 址 https://requests.readthedocs.io/。 

接 下 来 对 urllib.request 模块 定义 的 一 些 函 数 或 类 进行 讲解 。 





14.2.1 urlopen()、build_opener() 和 build_opener() 方 法 


1. urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, 
cadefault=False, context=None) 


该 函数 是 模块 中 较为 重要 的 函数 之 一 ， 用 于 抓 取 url 数据 。 从 函数 定义 可 以 看 出 ， 它 带 有 不 少 
参数 ， 且 一 些 参数 是 在 版 本 更 改 中 添加 的 。 除 url 外 ， 因 为 其 他 几 个 参数 都 带 有 默认 值 ， 所 以 调用 
该 函数 时 必须 带 有 url 参数 ， 该 参数 传 进来 的 网 址 可 以 是 一 个 字符 串 ， 也 可 以 是 一 个 Request 对 象 。 
例子 演示 如 下 : 

>>> from urllib import request 

>>> with request.urlopen("http://www.akaros.cn") as f: 

Print (f.status) 
Print (上 .getheaders ()) 

200 

[('Server', "nginx/1.10.3 (Ubuntu)'), ('Date', 'Sun, 01 Apr 2018 17:48:44 GMT'), 

('Content-Type', 'text/html; charset=utf-8'), ('Transfer-Encoding', 'chunked'), 

('Connection', 'close'), ('Vary', 'Cookie'), ('X-Frame-Options', 'SAMEORIGIN'), 

('Set-Cookie', 'sessionid=500jaztto29dzvwecyqsuoedtwei30xp; expires=Sun, 15-Apr 

-2018 17:48:44 GMT; HttpOonly; Max-Age=1209600; Path=/')] 

>>> 


输出 的 是 响应 的 状态 码 及 响应 的 头 信息 。 至 于 返回 对 象 为 什么 有 status 属性 和 getheaders() 方 
法 ， 后 续 会 有 介绍 。 

如 果 向 服务 器 发 送 数据 , 那 data 参数 必须 是 一 个 有 数据 的 bytes 对 象 , 否则 为 None。 在 Python 
3.2 之 后 可 以 是 一 个 iterable 对 象 。 若 是 iterable 对 象 ， 则 headers 中 必须 带 Content-Length 参数 。 
若 http 请 求 使 用 POST 方法 ， 则 data 必须 有 数据 ; 若 使 用 GET 方法 ， 则 data 写 None 就 行 。 


>>> from urllib import parse 

>>> from urllib import request 

>>> data = bytes(parse.urlencode({"pro": "value"}), encoding="utf8") 

>>> response = request.urlopen("http://httpbin.org/post", data=data) 

>>> print (response.read()) 

DN rargeny (jr \n GRACE AOL (Hr Noa EGR {ND mprons 
alue"\n }, \n "headers": {\n "Accept-Encoding": "identity", \n "Connecti 
on": "close", \n "Content-Length": "9", \n "Content-Type": "application/x- 
www-form-urlencoded"，\n "Host": "httpbin.org", \n "User-Agent": "Python-u 
rllib/3.6"\n }, \n "json": null, \n “origin": "58.20.12.197", \n "url": "htt 
Pp://httpbin.org/post"\n}\n' 

>>> 
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对 数据 进行 post 请 求 ， 需 要 转 码 bytes 类 型 或 iterable 类 型 ， 这 里 通过 bytes0 进 行 字 节 转换 ， 





考虑 其 第 一 个 参数 为 字符 串 ， 需 要 利用 parse 模块 下 的 urlencode() 方 法 对 上 传 的 数据 进行 字符 串 转 
换 ， 同 时 指定 编码 格式 utf8， 至 于 此 模块 及 其 函数 将 在 下 节 进 行 讲解 。 提 交 到 的 网 址 httpbin.org 可 
以 提供 HTTP 请 求 测试 。 从 返回 的 内 容 可 以 看 到 ， 提 交 以 表单 form 作为 属性 ， 提 交 的 字典 作为 属 
性 值 。 

timeout 参数 是 可 选 的 ， 它 以 秒 为 单位 指定 一 个 超时 时 间 。 若 超过 该 时 间 ， 任 何 操 作 都 会 被 阻 
止 ， 如 果 没 有 指定 ， 则 默认 会 取 socket.GLOBAL_DEFAULT_TIMEOUT 对 应 的 值 。 其 实 这 个 参数 
仅 对 http、https 和 ftp 连接 有 效 。 


>>> from urllib import request 

>>> response = request.urlopen("http://httpbin.org/get", timeout=1) 

>>> print (response.read() ) 

b'{\n "args": {}, \n "headers": {\n "Accept-Encoding": "identity", \n "CC 
onnection": "close", \n "Host": "httpbin.org", \n "User-Agent": "Python-ur 
llib/3.6"\n }, \n "origin": "58.20.12.197", \n "url": "http://httpbin.org/get 
"\nj\n' 

>>> 


从 上 面 的 代码 可 以 看 到 设置 了 超时 时 间 是 1 秒 ，1 秒 过 后 服务 器 没有 响应 ， 程 序 就 会 抛 出 


urllib.error.URLError : <urlopen error timed out> 异常 。 


在 实际 开发 中 ， 常 常会 使 用 try...except... 处 理 异 常 ， 这 样 可 以 根据 代码 异常 情况 进行 相应 
地 处 理 。 





cafile、capath、cadefault 已 被 弃 用 ， 使 用 自 定义 context 代替 。 从 context 参数 定义 来 看 : 


context=ssl.create_default_context(ssl.Purpose.SERVER_AUTH,cafile=cafile, capath=capath), 其 必须 是 
ssl.SSLContext 类 型 ， 用 于 指定 SSL 设置 。cafile 和 capath 两 个 参数 用 于 指定 CA 证 书 和 它 的 路 


径 ， 


这 个 在 请 求 HTTPS 链接 时 会 有 用 。 
该 函数 返回 用 作为 context manager (上 下 文 管理 器 ) 的 类 文件 对 象 ， 并 且 它 包含 如 下 方法 


@ ”geturl0: 返回 一 个 资源 索引 的 URL， 通 常 重 定向 后 的 URL 照样 能 get 到 。 
e@ info0: 返回 页 面 的 元 信息 ， 如 头 信息 。 
@ getcode0: 返回 响应 后 的 HTTP 的 状态 码 。 


除了 上 述 3 个 方法 外 ， 还 包含 getheaders() 方 法 及 status 和 msg 属性。 示例 如 下 : 


>>> from urllib import request 

>>> response = request.urlopen("http://httpbin.org/get") 
>>> response.geturl() 

'http://httpbin.org/get' 

>>> response.info() 

<http.client .HTTPMessage object at 0x02D01F70> 
>>> response.getcode() 

200 

>>> response.msg 

OKY 

>>> response.status 
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200 

>>> response.getheaders () 

[('Connection', 'close'), ('Server', "meinheld/0.6.1'), ('Date', 'Thu, 05 Apr 20 
18 08:42:35 GMT'), ('Content-Type', 'application/json'), ('Access-Control-Allow- 
Origin', '*'), ('Access-Control-Allow-Credentials', 'true'), ('X-Powered-By', 'F 
lask'), ('X-Processed-Time', '0'), ('Content-Length', '235'), ('Via', '1.1 vegur 
")] 

>>> 


从 代码 中 可 以 看 出 geturl0 返 回 的 是 请 求 的 url。info0 返 回 一 个 httplib.HTTPMessage 对 象 ， 表 


示 远 程 服务 器 返回 的 头 信息 。getcode() 返 回 Http 状态 码 200 与 status 属性 值 是 一 样 的 ，200 说 明 访 


问 正 


常 ，msg 的 属性 值 必然 为 OK。 
对 于 http 请 求 ， 不 同 的 状态 码 对 应 不 同 的 状态 ， 常 见 的 有 404、500 等 。getcode() 返 回 的 状态 


码 对 应 的 问题 如 下 : 


1xx(informational): 请 求 已 经 收 到 ， 正 在 进行 中 ; 

2xx(successful): 请 求 成 功 接收 ， 解 析 ， 完 成 ; 

3xx(Redirection): 需要 重 定向 ; 

4xx(Client Error): 客户 端 问题 ， 请 求 存在 语法 错误 ， 网 址 未 找到 ; 
5xx(Server Error): 服务 器 问题 。 


© 0。 0。 @ @ 


该 函数 与 Python 2.x 版 本 中 的 urllib2.urlopen 函数 功能 相同 。 





2. urllib.request. build_opener([handler1 [ handler2, … ]]) 
urlopen() 函 数 不 支 持 验 证 、cookie 或 其 他 HTTP 高 级 功能 。 要 支持 这 些 功 能 ， 必 须 使 用 


build_opener() 函 数 创建 自 定义 OpenerDirector 对 象 ， 可 称 其 为 Opener。 参 数 handler 是 Handler 实 


例 ， 


常用 的 有 用 于 管理 认证 的 HTTPBasicAuthHandler、 用 于 处 理 Cookie 的 HTTPCookieProcessor、 


用 于 设置 代理 的 ProxyHandler 等 。 


build_opener0 函 数 返 回 是 OpenerDirector 实例 ， 并 且 是 按 给 定 的 顺序 链接 处 理 程序 的 。 既 然 作 


为 OpenerDirector 实例 , 可 从 OpenerDirector 类 的 定义 看 出 它 具 有 addheaders、handlers、handle_open、 
add_handler()、open()、close() 等 属性 或 方法 。open() 方 法 与 urlopen() 函 数 的 功能 相同 。 


例子 演示 : 

>>> from urllib import request 

>>> opener = request .build opener() 

>>> opener.addheaders = [('User-agent', 'Mozilla/5.0 (iPhone; CPU iPhone 0S 11 0 
like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A3 
72 Safari/604.1')] 

>>> opener.open('http://www.akaros.cn') 

<http.client .HTTPResponse object at 0x02C2C3B0> 

>>> request.urlopen('http://www.akaros.cn') 

<http.client .HTTPResponse object at 0x02C2C410> 

>>> 


通过 如 上 代码 修改 http 报头 进行 HTTP 高 级 功能 操作 ， 然 后 利用 返回 对 象 open() 进 行 请 求 ， 


返回 结果 与 urlopen() 一 样 ， 只 是 内 存 的 位 置 不 同 而 已 。 
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实际 上 urllib.request.urlopen() 方 法 就 是 一 个 Opener， 如 果 安 装 启动 器 没有 使 用 urlopen 启动 的 
话 ， 那 么 调用 的 只 是 OpenerDirectoropen() 方 法 而 已 。 如 何 设置 默认 全 局 启动 器 呢 ? 这 将 涉及 一 个 
新 的 函数 。 

3. urllib.request. install_opener(opener) 

安装 OpenerDirector 实例 作为 默认 全 局 启动 器 ， 代 码 示例 如 下 : 


>>> from urllib import request 

>>> auth handler = request .HTTPBasicAuthHandler () 

>>> auth handler.add password('admin', 'http://www.akaros.cn', 'akaros', '123456 
78') 

>>> opener = request .build opener (auth handler) 





>>> request.install opener (opener) 

>>> request.urlopen('http://www.akaros.cn') 

<http.client .HTTPResponse object at 0x02C2C8B0> 

首先 导入 request 模块 , 实例 化 一 个 HTTPBasicAuthHandler 对 象 , 然后 通过 add_password(0) 添 
加 用 户 名 和 密码 ， 建 立 一 个 认证 处 理 器 ， 并 利用 urllib.request.build_opener() 方法 调用 该 处 理 器 构 
建 Opener， 使 其 作为 默认 全 局 启动 器 ， 这 样 Opener 在 发 送 请 求 时 就 具备 了 认证 功能 ， 最 后 通过 
Opener 的 open() 方法 打开 链接 完成 认证 。 当 然 ， 这 个 实例 是 无 法 跑 通 的 ， 因 为 所 访问 的 url 无 法 
直接 输入 用 户 名 和 密码 。 

除了 上 述 方法 外 ， 还 有 将 路 径 转 换 为 URL 的 pathname2url(path)、 将 URL 转换 为 路 径 的 
url2pathname(path)， 以 及 返回 方案 至 代理 服务 器 URL 映射 字典 的 getproxies() 等 。 


14.2.2 Request 类 


- 般 情况 下 ， 基 本 url 请 求 使 用 urlopen0 就 可 以 胜任 。 如 果 我 们 需要 添加 headers 信息 的 话 ， 
那么 就 得 考虑 使 用 更 为 强大 的 Request 类 了 ， 该 类 是 url 请 求 的 抽象 ， 包 含 许多 参数 并 定义 一 系列 
的 属性 和 方法 。 

1. 定义 

class urllib.request.Request (url, data=None, headers={}, origin_req host=None, unverifiab 
le=False, method=None) 

参数 url 为 有 效 网 址 的 字符 串 ， 等 同 于 urlopen() 方 法 的 url 参数 ，data 也 一 样 。headers 很 明显 
是 一 个 字典 ， 可 以 通过 add_header0 以 键 值 进 行 调 用 。 它 通常 用 于 模拟 朴 虫 或 Web 请 求 时 ， 更 改 
User-Agent 标 头 值 参 数 发 出 请 求 的 场合 .origin_req_host 为 原始 请 求 主机 , 比如 请 求 的 是 针对 HTML 
文档 中 的 图 像 ， 则 该 请 求 是 包含 图 像 页 面 请 求 的 请 求 主机 。Unverifiable 表示 请 求 是 否 无 法 验证 。 
method 表示 使 用 的 HTTP 请 求 方法 ， 常 用 的 有 GET、GET、PUT、HEAD、DELETE 等 。 


>>> from urllib import request 

>>> from urllib import parse 

>>> data = parse.urlencode ({"name":"akaros"}) .encode('utf-8') 

>>> headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/53 
7.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'} 

>>> req = request.Request (url="http://httpbin.org/post", data=data, headers=head 
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ers, method="POST") 

>>> response = request .urlopen(req) 

>>> response.read() 

b'{\n "args": {}, \n "data": "", \n "files": {}, \n "form": {\n “name": " 

akaros"\n }, \n "headers": {\n “Accept-Encoding": "identity", \n "Connec 

tion": "close", \n "Content-Length": "11"，\n "Content-Type": "application 
/x-www-form-urlencoded", \n "Host": "httpbin.org", \n "User-Agent": "Mozil 
la/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50 
.0.2661.102 Safari/537.36"\n }, \n "json": null, \n "origin": "110.53.189.118 
mw \n "url": "http://httpbin.org/post"\n}\n' 

>>> 


记得 data 参数 必须 是 字 节 流 类 型 的 ， 这 些 内 容 在 前 面 就 已 经 涉及 了 ， 不 同 的 地 方 在 于 调用 是 
使 用 Request 类 进行 请 求 。 
2. 属性 方法 
(1) Request.full url 
从 下 面 的 代码 定义 可 以 看 出 Request.full_url 是 函数 属性 化 处 理 , 通过 
原始 URL 传递 给 构造 函数 。 


class Request: 





系 加 修饰 器 @property 将 


@property 
def full url (self): 
if self.fragment: 
return '{}#{}'.format (self. full url, self.fragment) 
return self. full url 


@full url.setter 

def full url(self, url): 
# unwrap('<URL:type://host/path>') --> 'type://host/path' 
self._full url = unwrap(url) 
self. full url, self.fragment = splittag(self. full url) 
self. parse() 


@full url.deleter 

def full url (self): 
self._full url = None 
self. fragment = None 
self.selector = '" 





可 以 看 出 full_url 属性 包含 setter、getter 和 deleter。 如 果 原 始 请 求 URL 片段 存在 的 话 ， 得 到 
的 fnll_url 将 返回 原始 请 求 URL 片段 。 

例子 演示 : 

In [1]: from urllib import request 


In [2]: from urllib import parse 


In [3]: req = request.Request ('http://www.akaros.cn') 
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In [7]: def request host(request): 
: url = request.full url 
host = parse.urlparse (url) [1] 
if host == "": 
host = request.get header ("HOST", "") 
return host.lower() 


In [8]: request host (req) 
Out [8] : 'www.akaros.cn' 


在 定义 request_host0 函 数 中 可 以 看 出 ， 先 获取 请 求 对 象 的 url， 然 后 解析 该 url 取得 其 主机 地 
址 。 

(2) Requesttype 

获取 请 求 对 象 的 协议 类 型 。 

接 上 面 的 代码 : 


In [11]: req.type 
Out [11] : 'http' 


(3) Request.host 
获取 URL 主机 ， 可 能 包含 有 端口 的 主机 。 
In [12]: req.host 


Out [12] : 'www.akaros.cn' 


(4) Request.orgin req_host 
发 出 请 求 的 原生 主机 ， 没 有 端口 。 


In [14] : req.origin req host 
out [14] : 'www.akaros.cn' 


其 他 属性 不 做 介绍 ， 如 selector、data、method 等 ， 读 者 需要 时 可 自行 查阅 文档 。 
(5) Request.get_ method() 
返回 显示 HTTP 请 求 方法 的 字符 串 。 如 果 Request.method 不 是 None， 则 返回 其 他 值 ; 否则 返 
回 'GET '。 如 果 Request.data 是 None， 则 返回 'POST '。 这 是 唯一 有 意义 的 HTTP 请 求 。 


Python 3.3+ 版 本 的 变化 : get_ method 是 Request.method 的 新 形式 。 





In [21] : from urllib import request 
In [22]: req = request.Request('http://www.python.org', method='HEAD') 


In [23]: req.get method() 
Out [23] : 'HEAD' 


(6) Request. add header(key, val) 
向 请 求 中 添加 标 头 。 


In [26]: from urllib import request 
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In [27]: from urllib import parse 


In [28]: data = bytes(parse.urlencode({'name':'akaros'}), encoding='utf-8') 


In [29]: req = request.Request('http://httpbin.org/post',data, method="'POST') 


In [30]: req.add header('User-agent', 'Mozilla/5.0 (iPhone; CPU iPhone 0S 11 0 1 
: ike Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mo 


: bile/15A372 Safari/604.1') 


In [31]: response = request.urlopen(req) 


In [32]: print (response.read() .decode ('utf-8')) 
{ 
"args": {}, 
el 
"files": {}, 
"form": { 
"name": "akaros" 
}, 
"headers": { 
"Accept-Encoding": "identity", 
"Connection": "close", 
"Content-Length": "11", 
"Content-Type": "application/x-www-form-urlencoded", 
"Host": "httpbin.org", 


"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11 0 like Mac OS X) 


AppleW 


ebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1" 


} 

"json": null, 

"origin": "110.53.189.118", 

"url": "http://httpbin.org/post" 
} 


In [33]: 


从 上 面 的 代码 可 以 看 出 ， 通 过 add_header() 传 入 User-Agent， 在 爬虫 过 程 中 经 常 通 过 循环 调 入 
add_header() 添 加 不 同 的 User-Agent 进行 请 求 ， 以 避免 服务 器 针对 某 一 User-Agent 的 禁用 。 

其 他 方法 如 has_header()、remove_header()、get_full_url()、set_proxy() 等 这 里 不 做 介绍 ， 如 果 
读者 需要 了 解 其 使 用 方法 ， 可 查看 Python 文档 或 源 代码 。 


14.2.3 ”其 他 类 


BaseHandler 是 所 有 注册 处 理 程序 的 基 类 ， 并 且 只 处 理 注册 的 简单 机 制 。 从 它 的 定义 来 看 非常 
简单 ， 它 提供 了 一 个 添加 基 类 add_parent0 方 法 。 下 面 介绍 的 这 些 类 都 是 继承 该 类 操作 的 。 


@ HTTPErrorProcessor: 用 于 HTTP 错误 响应 过 程 。 


e@ HTTPDefaultErrorHandler: 用 于 处 理 HTTP 响应 错误 , 错误 都 会 抛 出 HTTPError 类 型 的 异常 。 


@ ProxyHandler: 用 于 设置 代理 。 
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@ HTTPRedirectHandler: 用 于 处 理 重 定 向 。 
@ HTTPCookieProcessor: 用 于 处 理 Cookie。 
e HTTPBasicAuthHandler: 用 于 管理 认证 。 


除了 上 述 类 外 ， 还 有 许多 其 他 的 类 ， 这 里 不 做 过 多 介绍 ， 读 者 可 以 查看 其 官方 文档 或 源 代码 。 
14.3 ”error 模块 


该 模块 定义 了 由 urllib.request 引发 异常 的 异常 类 ， 从 其 源 代码 可 以 看 出 有 3 个 ， 分 别 为 
URLError、HTTPError 和 ContentTooShortError。 

URLError 是 OSError 的 子 类 ， 用 于 处 理 程序 在 遇 到 问题 时 引导 此 异常 〈 或 派生 异常 ) 。 
HTTPError 是 URLError 的 子 类 ， 在 处 理 HTTP 错误 〈 如 认证 请 求 ) 时 很 重要 ， 服 务 器 上 HTTP 的 
响应 会 返回 一 个 状态 码 ， 根 据 这 个 HTTP 状态 码 ， 可 以 知道 我 们 的 访问 是 否 成 功 ， 如 200 状态 码 ， 
表示 请 求 成 功 。ContentTooShortError 与 HTTPError 一 样 是 URLError 的 子 类 ,通过 request.urlretrieve() 
函数 检测 下 载 数 据 量 小 于 Content-Length 头 指定 的 数据 量 时 ， 引 发 该 异常 。 

In [33] : from urllib import request 

In [34] : from urllib import error 


In [35] : req = request.Request('http://www.akaros.cn/hack.html') 


In [36]: try: 
response = request.urlopen (req) 
print (response. read()) 
.: except error.HTTPError as e: 
print (e.code) 


404 


运行 之 后 得 到 404 错误 ， 说 明 请 求 的 页 面 不 存在 ， 在 浏览 器 试 着 打开 代码 中 的 网 址 ， 会 发 现 
404 错误 异常 。 


Python 2.x 与 Python 3.x except... 写 法 是 不 同 的 .上 述 except... 代 码 在 Python 2.x 中 的 写作 方 
式 为 except HTTPError, e。 





我 们 在 下 载 音乐 或 视频 文件 不 完整 时 ， 会 导致 ContentTooShortError 错误 ， 举 例 说 明 : 


In [40] : try: 
request.urlretrieve('http://www.iobigdata.com/pha/', 'ring.mp3') 
. : except error.ContentTooShortError: 


print ( "内 容 未 完全 下 好 ! ') 
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@ HTTPRedirectHandler: 用 于 处 理 重 定 向 。 
@ HTTPCookieProcessor: 用 于 处 理 Cookie。 
e HTTPBasicAuthHandler: 用 于 管理 认证 。 


除了 上 述 类 外 ， 还 有 许多 其 他 的 类 ， 这 里 不 做 过 多 介绍 ， 读 者 可 以 查看 其 官方 文档 或 源 代码 。 
14.3 ”error 模块 


该 模块 定义 了 由 urllib.request 引发 异常 的 异常 类 ， 从 其 源 代码 可 以 看 出 有 3 个 ， 分 别 为 
URLError、HTTPError 和 ContentTooShortError。 

URLError 是 OSError 的 子 类 ， 用 于 处 理 程序 在 遇 到 问题 时 引导 此 异常 〈 或 派生 异常 ) 。 
HTTPError 是 URLError 的 子 类 ， 在 处 理 HTTP 错误 〈 如 认证 请 求 ) 时 很 重要 ， 服 务 器 上 HTTP 的 
响应 会 返回 一 个 状态 码 ， 根 据 这 个 HTTP 状态 码 ， 可 以 知道 我 们 的 访问 是 否 成 功 ， 如 200 状态 码 ， 
表示 请 求 成 功 。ContentTooShortError 与 HTTPError 一 样 是 URLError 的 子 类 ,通过 request.urlretrieve() 
函数 检测 下 载 数 据 量 小 于 Content-Length 头 指定 的 数据 量 时 ， 引 发 该 异常 。 

In [33] : from urllib import request 

In [34] : from urllib import error 


In [35] : req = request.Request('http://www.akaros.cn/hack.html') 


In [36]: try: 
response = request.urlopen (req) 
print (response. read()) 
.: except error.HTTPError as e: 
print (e.code) 


404 


运行 之 后 得 到 404 错误 ， 说 明 请 求 的 页 面 不 存在 ， 在 浏览 器 试 着 打开 代码 中 的 网 址 ， 会 发 现 
404 错误 异常 。 


Python 2.x 与 Python 3.x except... 写 法 是 不 同 的 .上 述 except... 代 码 在 Python 2.x 中 的 写作 方 
式 为 except HTTPError, e。 





我 们 在 下 载 音乐 或 视频 文件 不 完整 时 ， 会 导致 ContentTooShortError 错误 ， 举 例 说 明 : 


In [40] : try: 
request.urlretrieve('http://www.iobigdata.com/pha/', 'ring.mp3') 
. : except error.ContentTooShortError: 


print ( "内 容 未 完全 下 好 ! ') 
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如 果 下 载 没有 完成 会 报错 误 ， 否 则 不 会 。 
14.4 ”parse 模块 


该 模块 用 于 分 解 URL 字符 串 为 各 个 组 成 部 分 ， 包 括 寻 址 方案 、 网 络 位 置 、 路 径 等 ， 也 用 于 将 
这 些 部 分 组 成 URL 字符 串 ， 同 时 可 以 对 相对 URL 进行 转换 。 


14.4.1 URL 解析 


URL 解析 无 非 是 将 URL 拆 开 为 各 部 分 ， 或 者 将 各 部 分 组 成 完整 的 URL 等 。 本 节 我 们 将 讲述 
常用 的 几 个 函数 ， 如 urlparse0、urlunparse0 、urlsplit0)、urlunsplit0、urljoin0、urldefrag(O) 等 。 

1. urllib.parse.urlparse(urlstring, scheme=", allow_fragments=True) 

解析 URL 为 六 部 分 ， 返 回 一 个 6 元 组 。 该 元 组 是 tuple 子 类 的 实例 ， 该 类 具有 如 表 14.2 所 列 





属性 。 

14.2 ”返回 元 组 具有 的 属性 及 其 说 明 
属性 说 明 对 应 下 标 指数 
Scheme URL 方案 说 明 符 
netloc 网 络 位 置 部 分 
path 分 层 路 径 
params 最 后 路 径 元 素 的 参数 
query 查询 组 件 
fragment 片段 标识 符 
usemame 用 户 名 
password 密码 
hostname 主机 名 小写 ) 
dt 端口 号 (如 果 存在 ) 














这 里 组 成 URL 的 一 般 结 构 为 sheme://netloc/path:parameters?query#fragment。 下面 是 代码 演示 : 
In [1]: from urllib.parse import urlparse 

In [2]: res = urlparse('https://docs.python.org/3/whatsnew/3.6.html') 

In [3]: res 

out [3] : ParseResult (scheme='https', netloc='docs.python.org', path='/3/whatsnew/ 


3.6.html', params='', query='', fragment="') 


In [4]: res.scheme 
Out[4]: 'https’ 


In [5]: res.netloc 
Out[5]: 'docs.python.org' 
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从 上 面 的 代码 中 我 们 很 容易 理解 返回 元 组 每 一 个 元 素 对 应 的 值 。urlparse 有 时 并 不 能 很 好 地 识 
别 netloc， 它 会 假定 相对 URL 以 路 径 分 量 开始 。 
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In [23] : 

从 In[21] 可 以 看 出 urlparse 解析 是 有 问题 的 , 无 法 正确 解析 netloc, 而 是 将 其 取 值 放 在 path 中 。 
因此 在 开发 过 程 需要 特别 注意 这 种 情况 。 

2. urllib.parse.urlunparse(parts) 

从 函数 定义 就 可 以 看 出 urlunparse() 是 urlparse() 的 逆向 操作 ， 即 将 urlparse0) 返 回 的 元 组 构建 成 
一 个 URL。 





In [26] : res 
Out [26] : ParseResult (scheme='https', netloc='docs.python.org', path='/3/whatsnew 
/3.6.html', params='', query='', fragment="'') 


In [27]: from urllib.parse import urlunparse 


In [28]: urlunparse(res) 
Out [28] : 'https://docs.python.org/3/whatsnew/3.6.html' 


res 为 刚才 定义 的 返回 元 组 对 象 ，urlunparse() 直 接 将 该 对 象 构造 成 URL。 

3. urllib.parse.urlsplit(urlstring, scheme=", allow_fragments=True) 

该 函数 类 似 urlparse()， 只 是 不 会 分 离 参 数 ， 即 返回 的 元 组 对 象 没有 params 元 素 ， 是 一 个 5 元 
组 ， 相 应 的 下 标 指数 也 发 生 了 改变 。 

In [31]: from urllib.parse import urlsplit 


In [32]: sp = urlsplit ('https://www.baidu.com/s?wd=pythongie=utf-8&tn=94100467_ 
.:; hao_pg') 


In [33]: sp 
Out [33] : SplitResult (scheme='https', netloc='www.baidu.com', path='/s', query=" 
d=pythongie=utf-8&tn=94100467_hao_pg', fragment="') 


上 面 的 代码 除了 少 params， 与 urlparse(0) 返 回 结果 差不多 。 
4. urllib.parse. urlunsplit(parts) 
类 似 于 urlunparse(parts) 函 数 。 
5. urllib.parse. urljoin(base, url, allow_fragments=True) 
该 函数 主要 组 合 基本 网 址 (base) 与 另外 一 个 网 址 (url) 构造 新 的 完整 网 址 。 
In [37]: from urllib.parse import urljoin 


In [38]: urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
“ss "test/one.html') 
Out[38]: 'http://news.baidu.com/z/resource/pc/staticpage/test/one.html' 


In [39]: urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
: , './test/one.html') 


Out [39] : 'http://news.baidu.com/z/resource/pc/staticpage/test/one.html' 


In [40] : urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
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: , '../test/one.html') 
Out [40] : 'http://news.baidu.com/z/resource/pc/test/one.html' 


In [41]: urljoin('http://news.baidu.com/z/resource/pc/staticpage/newscode.html' 
: , '/test/one.html') 
Out [41] : 'http://news.baidu.com/test/one.html' 


从 上 面 的 代码 中 可 以 看 出 ， 相 对 路 径 和 决定 路 径 的 url 组 合 是 不 同 的 ， 而 且 相 对 路 径 是 以 最 后 
部 分 路 径 进 行 替 换 处 理 的 。 


如 果 url 是 绝对 网 址 ( 即 以 /或 scheme 开头 )， 则 urlts > 的 主机 名 和 /或 方案 将 出 现在 结果 中 。 





6. urllib.parse. urldefrag(url) 

根据 url 进行 分 开 ， 如 果 url 包含 片段 标识 符 ， 则 返回 url 对 应 片段 标识 符 前 的 网 址 。fragment 
取 片 段 标 识 符 后 的 值 ， 其 下 标 指数 也 就 是 1;， 如 果 url 没有 片段 标识 符 ，fragment 为 空 字符 串 。 

In [42]: from urllib.parse import Urldefrag 

In [43]: urldefrag('http://www.python.com/download/soft .html#python3.6') 


Out [43] : DefragResult (url='http://www.python.com/download/soft.html', fragment="' 
python3.6') 


该 代码 的 片段 标识 符 url 地 址 是 虚拟 的 。 但 从 结果 上 可 以 很 明显 地 看 出 urldefrag() 函 数 的 功能 。 


14.4.2 URL 转 义 


URL 转 义 可 以 避免 URL 中 有 些 字符 引起 的 歧义 ,通过 引用 特殊 字符 并 适当 编码 非 ASCII 文 本， 
使 其 作为 URL 组 件 安全 使 用 。 当 然 ， 也 支持 反 转 这 些 操作 ， 以 便 从 URL 组 件 内 容重 新 创建 原始 数 
据 。 

1. urllib.parse.quote(string, safe="/", encoding=None, errors=None) 

通过 使 用 %xx 转 义 替换 string 中 的 特殊 字符 ， 其 中 字母 、 数 字 和 字符 ' .-' 不 会 进行 转 义 。 默 认 
情况 下 ， 此 函数 用 于 转 义 URL 的 路 径 部 分 。 可 选 的 safe 参数 指定 不 应 转 义 的 其 他 ASCII 字符 ， 其 
默认 值 为 /。 

In [44] : from urllib.parse import quote 

In [45] : quote ('http://www.python.com/download/soft .html1#python3 .6&country=chin 

Sah 


Out [45] : 'http%3A//www.python.com/download/soft.html%23python3.6%26country%3Dchi 
na' 


In [46]: quote('http://www.python.com/download/soft .html#python3.6&country=chin 
“md de Safe=’/=") 
Out [46] : 'http%3A//www.python.com/download/soft.html%23python3.6%26country=china 
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从 Out[45] 可 以 看 出 : 蔡 换 为 %3A，# 营 换 为 %23， 人 替换 为 %26，= 蔡 换 为 %3 。In[46] 设 置 了 
safe 为 '/=' 后 ， 发 现 =' 就 没有 进行 转 义 了 。 
参数 string 可 以 是 字符 串 也 可 以 是 bytes 类 型 .参数 encoding 用 于 指定 编码 格式 , 默认 为 'utf-8'， 
认 编 码 满足 了 大 部 分 需求 ， 而 errors 在 处 理 非 ASCII 字符 中 指定 ， 默 认为 strict， 对 于 不 支持 


符 会 引发 UnicodeEncodeError 错误 。 














如 果 string 参数 是 bytes， 则 encoding 和 errors 无 法 指定 ， 否 则 会 报 TypeError 错误 。 





In [4] : from Urllib.parse import quote 


In [5] : quote(bytes('http://www.Python.com/download/soft.html#python3.6&country 
hina', encoding='utf-8'), safe: ,+ encoding="'utf-8') 








TypeError Traceback (most recent call last) 
<ipython-input-5-3600e155b0b3> in <module>() 

----> 1 quote(bytes('http://www.python.com/download/soft .html#python3.6&country= 
china', encoding='utf-8'), safe='/=', encoding="'utf-8') 


c:\python36-32\1ib\urllib\parse.py in quotel(string, safe, encoding, errors) 


782 else: 

783 if encoding is not None: 
--> 784 raise TypeError("quote() doesn't support 'encoding' for byte 
s") 

785 if errors is not None: 

786 raise TypeError("quote() doesn't support 'errors' for bytes" 


TypeError: quote() doesn't support 'encoding' for bytes 


从 In[5] 返 回 结果 可 以 得 知 ， 当 参数 为 bytes 类 型 时 , 说 明 在 bytes0 中 的 参数 已 经 进行 encoding 
指定 ， 无 须 在 quote() 函 数 中 指定 ， 否 则 就 会 报 TypeError 错误 。 

2. urllib.parse.unquote(string, encoding='utf-8, errors='replace') 

该 函数 很 显然 是 quote() 的 逆向 操作 ， 即 将 %xx 转 义 为 等 效 的 单字 符 。 参 数 encoding 和 errors 
用 来 指定 %xx 编码 序列 解码 为 Unicode 字符 ， 如 同 bytes.decode() 方 法 。 





此 处 的 string 





In [11]: from urllib.parse import unquote 


In [12]: a = quote (bytes('http://www.python.com/download/soft.html#python3.6&co 
.: untry=china', encoding="'utf-8'), safe='/="') 


In [13]: type(a) 
Out[13]: str 


In [14]: a 
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Out [14] : 'http%3A//www.python.com/download/soft.html%23python3.6%26country=china 


In [15] : unquote(a) 
out [15] : 'http://www.python.com/download/soft.html#python3.6gcountry=china' 


从 代码 可 以 看 出 quote() 函 数 返 回 的 是 字符 串 ， 而 转 义 的 字符 通过 unquote() 进 行 了 转 码 。 

3. urllib.parse.quote_plus(string, safe=", encoding=None, errors=None) 

该 函数 是 quote() 的 增强 版 ， 功 能 与 quote() 差 不 多 ,不同 的 是 使 用 “+” 替 换 空格 ,在 提交 表单 
值 构建 字符 串 进入 URL 请 求 时 ， 这 是 必须 的 。 如 果 原 始 URL 有 字符 “+”， 将 被 转 义 。 


In [16]: from urllib.parse import quote plus, quote 


In [17]: a = quote(bytes('http://www.python.com/download/soft .html#python3.6&co 
: untrytchina is my love', encoding='utf-8'), safe='/="') 


In [18]: a 
Out [18] : 'http%$3A//www.python.com/download/soft .html$23python3.6%26country%2Bchi 
nag20is%20myg%201ove'" 


In [19]: b = quote plus(bytes('http://www.python.com/download/soft .html#python3 
...: .6&country+china is my love', encoding='utf-8'), safe='/=') 


In [20]:b 
Out [20] : 'http%3A//www.python.com/download/soft.html%$23python3.6%26country%2Bchi 
natistmyt+love' 


从 代码 可 以 看 出 在 quote_plus() 函 数 下 字符 “+” 转 义 为 %2B， 空 格 以 “+” 替 换 。 
4. urllib.parse.unquote_plus(string, encoding="utf-8", errors='replace') 
类 似 unquote0 函 数 ， 这 里 不 做 演示 。 
5. urllib.parse.urlencode(query, doseq=False, safe=", encoding=None, errors=None, 
quote_via=quote_plus) 
读者 可 能 会 发 现 该 函数 在 前 面 曾经 调用 过 ， 通 常 在 HTTP 进行 POST 请 求 对 传递 的 数据 进行 
编码 时 会 使 用 该 函数 。 


In [46]: from urllib import parse 

In [47]: from urllib import request 

In [48]: data = bytes(parse.urlencode ({"pro": "value"}), encoding="utf8") 
In [49]: response = request.urlopen("http://httpbin.org/post", data=data) 


In [50] : response.read() 

Outtso0ls Drt\n "erga"s thy \n OO EAI “eileen (jy N\A "form™s TAN 
"pro": "value"\n }, \n "headers": {\n "Accept-Encoding": "identity", \n 
"Connection": "close", \n "Content-Length": "9g9", \n "Content-Type": "appli 
cation/x-www-form-urlencoded", \n "Host": "httpbin.org", \n "User-Agent": 
"python-urllib/3.6"\n }, \n "json": null, \n "origin": "110.53.189.118", \n 
"url": "http://httpbin.org/post"\n}\n' 
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在 In[48] 中 的 data 为 所 提交 的 数据 ,注意 该 数据 必须 转换 为 bytes 类 型 ,或 者 使 用 encode('ascii') 
进行 编码 ， 调 用 urlencode() 把 数据 转换 为 %xx 编码 的 ASCII 文本 字符 串 。 

除了 上 面 所 介绍 的 函数 外 ， 还 有 quote_from_bytes()、unquote_to_bytes() 等 ， 如 果 读 者 想 了 解 
更 多 信息 ， 可 查看 官方 文档 或 源 代码 。 


14.5 ”robotparser 模块 


robotparser 模块 很 简单 , 其 整个 源 代码 也 就 两 百 多 行 , 仅 定义 了 三 个 类 , 分 别 是 RobotFileParser、 
RuleLine 与 Entry。 而 从 _all_ 属 性 来 看 也 就 只 有 RobotFileParser 一 个 类 了 ， 该 类 用 于 处 理 有 关 特 定 用 
户 代理 是 否 可 以 在 发 布 robots.txt 文件 的 网 站 上 提取 网 址 内 容 。robots.txt 可 以 说 是 一 个 协议 文件 ， 是 搜 
索引 擎 访问 网 站 时 查看 的 第 一 个 文件 ， 该 文件 会 告诉 聆 虫 或 师 蛛 程序 在 服务 器 上 可 以 查看 什么 文件 。 
该 类 有 一 个 url 参数 ， 有 set_url)、read()、mtime()、parse()、can_fetch()、modified() 等 方法 。 
set_url(url) 用 于 设置 指向 robots.txt 文件 的 网 址 。 
read() 用 于 读 取 robots.txt 网 址 ， 并 将 其 提供 给 解析 器 。 
parse() 用 于 解析 线 参 数 。 
can_fetch(useragent,url) 用 于 判断 是 否 可 提取 url， 如 果 允 许 useragent 根据 解析 的 robots.txt 中 
规则 提取 url， 则 返回 True 文件 。 
mtime() 返 回 上 次 抓 取 robots.txt 时 间 。 
modified() 将 上 次 抓 取 robots.txt 文 件 的 时 间 设 置 为 当前 时 间 。 


下 面 演示 一 下 该 类 的 基本 使 用 。 


In [1]: from urllib.robotparser import RobotFileParser as RbP 


© © 0 9 


In [2]: rbp = RbP() 
In [3]: rbp.set url('http://www.baidu.com/robots.txt') 
In [4]: rb read = rbp.read() 


In [5]: rbp.can fetch('*', 'http://www.baidu.com') 
Out[5]: True 


In [6]: rbp.mtime() 
out [6] : 1523200823.1784632 


In [7]: rbp.modified() 


In [8]: rbp.mtime() 
Out[8]: 1523200880.7127542 


In [9]: rb read 


In [10] : 
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从 上 面 的 代码 就 可 以 清楚 地 了 解 各 个 方法 的 使 用 。 
本 节 到 这 里 就 结束 了 ， 接 下 来 讲述 如 何 使 用 urllib 包 进行 网 络 息 虫 开发 。 


14.6 urllib 网 络 疏 虫 实战 


Urllib 开发 网 络 爬 虫 可 以 说 是 比较 原始 的 肘 虫 方式 ， 很 多 疏 虫 框架 如 Scrapy、Pyspider 都 是 在 
该 包 基 础 上 建立 起 来 的 。 掌 握 它 对 于 我 们 以 后 进行 网 络 聆 虫 开发 显得 尤为 重要 。 至 于 什么 是 怜 虫 ， 
说 得 通俗 点 就 是 浏览 网 页 信息 时 ， 我 们 需要 按照 一 些 规则 去 检索 ， 这 些 检索 规则 就 是 怜 虫 代码 ， 而 
实现 这 个 过 程 就 是 仆 虫 。 

事实 上 在 前 面 讲述 的 几 节 内 容 中 ,我 们 已 经 使 用 urllib 包 的 某 些 模块 进行 了 爬虫 开发 。 比 如 我 
们 要 读 取 http://www.akaros.cn 网 页 的 内 容 ， 输 入 如 下 代码 就 可 以 : 


In [4]: from urllib import request 
In [5]: res = request.urlopen('http://www.akaros.cn') 


In [6]: res.read() 

Out [6] : b'\n<!DOCTYPE html>\n<!--[if 1t IE 7]> <html class="no-js lt-ie9 lt-ie8 
lt-ie7"> <![endif]-->\n<!--[if IE 7]> <html class="no-js lt-ie9 lt-ie8"> <! [endi 
f]-->\n<!--[if IE 8]> <html class="no-js lt-ie9"> <![endif]-->\n<!--[if gt IE 8] 
><!--> <html class="no-js"> <!--<![endif]-->\n <head>\n <meta charset= 
"utf-8" />\n ~ 


Out[6] 输 出 代码 太 多 ， 此 处 只 复制 一 些 ， 可 以 看 出 其 返回 的 是 bytes 类 型 。In[5] 是 一 个 页 面 的 
疏 取 ， 它 疏 取 的 是 http://www.akaros.cn 网 址 所 打开 的 页 面 ， 并 将 其 传 给 变量 res， 而 函数 read0 日 
的 就 是 读 取 整 个 页 面 。 如 果 想 让 代码 更 直观 一 点 ,可 将 返回 ascii 编码 转换 成 我 们 需要 的 编码 格式 ， 
如 utf8 编码 格式 ， 执 行 如 下 操作 : 


In [11]: from urllib import request 
In [12]: rr = request.urlopen(‘http://www.akaros.cn’) .read() 


In [13]: rr.decode('utf-8°') 

Out [13] : '\n<!DOCTYPE html>\n<!--[if lt IE 7]> <html class="no-js lt-ie9 lt-ie8 
1t-ie7"> <![endif]-->\n<!--[if IE 7]> <html class="no-js lt-ie9 lt-ie8"> <![endi 
£]-->\n<!--[if IE 8]> <html class="no-js lt-ie9"> <![endif]-->\n<!--[if gt IE 8] 
><!--> <html class="no-js"> <!--<! [endif]-->\n <head>\n <meta charset= 
"utf-8" />\n <title> 首 页 -akaros - 专注 大 数据 ， 人 工 智 能 的 创意 型 团队 </title 

>\n\n <meta name="viewport" content="width=device-width, initial-scale=1. 
0O">\n <meta name="description"” content="akaros 是 一 家 致力 于 为 客户 提供 专业 

网 页 、 网 站 等 web 应 用 设计 、 移 动 app 应 用 设计 、 交 互 设计 、 创 意 设计 、 网 站 seo 优化 、 网 站 

运 维 管理 等 服务 及 具有 创意 性 的 互联 网 团队 。">\n\n \n <meta property=" 

og:type" content="website" />\n <meta property="og:url" content="http://a 
karos.cn/" />\n <meta property="og:title" content=" 首 页 -akaros - 专注 大 数 
据 ， 人 工 智 能 的 创意 型 团队 | Akaros" />\n <meta property="og:image" content 
="http://akaros.cn/static/akaros/images/about-placeholder6.jpg" />\n <met 
a property="og:description" content="akaros 是 一 家 致力 于 为 客户 提供 专业 网 页 、 网 站 

等 web 应 用 设计 、 移 动 app 应 用 设计 、 交 互 设计 、 创 意 设计 、 网 站 seo 优化 、 网 站 运 维 管理 等 …. 
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如 果 继 续 原 来 res.read() 的 代码 进行 操作 ,如 res.read().decode('utf-8"), 将 得 到 的 是 ", 因为 read() 


函数 是 一 次 读 取 的 。 除 了 read() 读 取 外 ， 还 有 readline() 和 readlines()， 其 中 readline0 读 取 一 
行 ，readlines() 读 取 全 部 内 容 ， 不 同 的 是 readlines() 将 读 取 内 容 传 给 一 个 列表 变量 。 





上 述 控 制 台 的 操作 从 原理 上 说 已 经 实现 了 一 个 页 面 候 虫 ， 只 不 过 它 的 页 面 还 没有 存储 在 本 地 
文件 或 数据 库 中 。 

我 们 可 以 通过 接 下 来 的 代码 实现 将 数据 保存 在 本 地 文件 中 ， 由 于 疏 取 的 是 页 面 代码 内 容 ， 因 
此 ， 右 击 网 页 查看 源 代码 的 内 容 ， 我 们 就 以 html 格式 保存 ， 毕 竟 现 在 怜 取 的 是 整个 网 页 。 


In [25]: with open('index.html', 'wb') as f: 
: f.write(rr) 


In[25] 代 码 中 对 应 的 rr 为 前 面 所 定义 的 ， 这 里 不 能 使 用 rr.decode() 进 行 写 入 ， 因 为 写 入 格式 是 
"wb'， 不 能 以 字符 串 形式 写 入 ， 须 以 bytes 形式 写 入 。index.html 如 果 存 在 就 覆盖 ， 否 则 创建 一 个 新 
的 ， 当 然 这 需要 有 创建 文件 的 权限 ， 在 Window 就 无 须 考虑 该 问题 了 。 

至 于 index.html 是 否 已 经 下 载 下 来 ， 可 以 使 用 如 下 代码 进行 检验 : 


In [39]: with open('index.html', 'r', encoding='utf-8') as f: 
print (f.read()) 


这 样 它 就 会 输入 所 得 结果 ， 也 可 以 进入 执行 ipython 的 当前 目录 下 查看 是 否 存 在 index.html 广 
件 。 





这 里 记得 加 上 encoding 参数 ， 要 不 然 可 能 会 报 编码 格式 不 对 的 错误 。 


这 里 使 用 with 代码 操作 ， 省 略 了 关闭 该 文件 的 操作 。 
如 果 使 用 如 下 代码 : 


In [13]: from urllib import request 

In [14]: res = request.urlopen('http://www.akaros.cn') 
In [15]: data = res.read() 

In [16]: file = open('index.html', 'wb') 

In [17]: file.write(data) 


In[18]: file.close() 


就 需要 加 上 close() 函 数 关闭 该 文件 。 

接 下 来 我 们 通过 一 个 修改 报头 、 添 加 关键 字 进 行 搜索 的 疏 虫 来 完成 urllib 怜 虫 的 学 习 。 

修改 报头 在 之 前 模块 介绍 中 已 经 讲 过 了 ， 它 包含 两 种 方法 : 一 种 是 通过 使 用 build_opener0 修 
改 报头 ， 另 一 种 是 使 用 add_header() 添 加 报头 ， 关 键 字 则 在 quote() 函 数 中 设置 。 代 码 如 下 : 
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In [1] : from urllib import request 

In [2] : url = 'http://www.baidu.com/s?wd=" 
In [3] : key = ' 机 器 学 习 ， 

In [4] : key url = request.quote (key) 

In [5] : req = request.Request (Url+key_url) 


In [6] : req.add header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) Apple 
: WebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36') 


In [7]: data = request.urlopen(req) .read() 
In [8]: file = open('index.html', 'wb') 


In [9]: file.write (data) 
Out [9] : 322751 


In [10]: file.close() 

In[4] 通 过 quote() 函 数 对 关键 字 进 行 编码 ， 编 码 之 后 再 构造 URL， 然 后 使 用 Request 类 进行 请 
求 , 这 里 使 用 该 类 而 不 使 用 urlopen0) 是 由 于 需要 添加 报头 , 接着 对 搜索 关键 字 页 面 进行 企 虫 , 最 后 
保存 为 index.html。 打 开 该 页 面 如 图 14.1 所 示 。 


1 mr 于 x 
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图 14.1 疏 取 的 搜索 页 面 index.html 


第 15 齐 
Python 数据 库 编 程 实战 


Python 定义 了 一 套 操 作 数 据 库 的 API 接口 ,任何 数据 库 连接 到 Python, 只 需要 提供 符合 Python 
标准 的 数据 库 驱 动 即 可 。 本 章 将 介绍 常用 的 两 类 数据 库 : SQLite 和 MySQL， 两 者 只 是 导入 的 库 不 
同 , 基本 连接 、 查 询 的 操作 都 是 差不多 的 。 相 信 读 者 学 完 这 两 种 数据 库 操作 之 后 ， 对 于 其 他 数据 库 
的 操作 也 会 信 手 牛 来 。 





15.1 操作 SQLite 


SQLite 是 一 款 轻 量 级 关系 型 数据 库 管 理 系 统 ， 其 官方 网 址 是 http://www.sqlite.org/， 当 前 版 本 
为 V3.22.X。 因 为 SQLite 将 数据 保存 为 文件 ， 占 用 空间 比较 小 ， 所 以 适用 于 很 多 移动 应 用 中 。 由 
于 Python 从 V2.5.X 版 本 开始 就 内 置 了 SQLite3， 因 此 在 Python 中 使 用 SQLite 不 需要 单独 安装 或 
配置 ， 只 需要 导入 SQLite3 模块 。 


15.1.1 创建 SQLite 数据 库 


创建 SQLite 数据 库 非常 简单 ， 只 需要 两 步 : 
步骤 010 导入 sqlite3 模块 。 

步骤 024 使 用 connect 函数 。 

下 面 直接 在 解释 器 中 运行 上 述 两 步 : 


>>> import sqlite3 
>>> sqlite3.connect('students.db') 
<sqlite3.Connection object at 0x000001AE091AE650> 
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connect 函数 用 于 连接 数据 库 ， 当 系统 中 不 存在 数据 库 时 会 自动 创建 该 数据 库 。 上 述 代码 最 后 
显示 的 是 数据 库 在 内 存 中 的 位 置 。 
简单 说 明 一 下 ， 一 个 数据 库 可 以 包含 多 个 数据 表 ， 比 如 一 个 学 生 数 据 库 中 可 以 有 学 生 表 、 成 


15.1.2 创建 SQLite 数据 表 


上 面 创建 好 了 数据 库 ， 现 在 就 向 数据 库 中 添加 表 。 为 了 让 系统 知道 是 向 哪个 数据 库 中 添加 表 ， 
我 们 需要 创建 数据 库 实例 ， 然 后 对 这 个 实例 进行 操作 ， 比 如 : 

conn = sqlite3.connect ('students.db') # 创 建 数据 库 的 一 个 实例 

下 面 是 创建 数据 表 的 代码 : 

【示例 15-1】 


01 import sqlite3 


02 

03 conn = sqlite3.connect ('students.db') ## 创 建 或 连接 数据 库 
04 c= conn.cursor() # 获 取 游标 

05 c.execute('''CREATE TABLE STUDENT ( 

06 ID INT PRIMRRY KEY NOT NULL, 

07 NRME TEXT NOT NULL, 

08 AGE INT NOT NULL, 

09 ADDRESS CHAR(50) 

10 yy 

11 conn.commit() # 执 行 SQL 语句 
12 conn.closel() # 关 闭 数据 库 
这 里 有 几 点 要 注意 : 


@ 数据 库 操作 主要 是 connect 和 cursor，connect 用 于 连接 数据 库 ，cursor 翻译 为 游标 ， 用 于 操作 
数据 库 。 所 有 的 操作 都 必须 先 获取 游标 ， 如 第 04 行 。 

@ ”操作 数据 库 主要 用 到 SQL 语句 , 该 语句 在 代码 中 体现 为 字符 囊 形式 因为 本 例 代码 是 多 行 ， 所 
以 第 05~10 行 用 到 了 "..." 的 形式 ， 如 果 是 单行 语句 ， 就 直接 用 单 引 号 。 
所 有 SQL 语句 的 执行 使 用 execute 函数 。 

日 执行 完 SQL 语句 后 要 提交 到 数据 库 ， 也 就 是 让 数据 库 发 生 改 变 ， 如 第 11 行 。 

e@ 数据库 操作 完毕 后 ， 记 得 要 关闭 数据 库 的 连接 ， 如 第 12 行 。 


综 上 记述， 操作 数据 库 的 步骤 如 下 : 

步骤 014 建立 连接 。 

步骤 02 获取 游标 。 

步骤 034 执行 SQL 语句 ， 可 以 写 多 条 语句 。 
步骤 044 提交 到 数据 库 。 

步骤 05C 关闭 连接 。 
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15.1.3 ”为 数据 表 添加 数据 


前 面 创建 的 数据 表 内 容 为 室 ，SQL 语句 使 用 INSERT 或 INSERT INTO 为 数据 表 添 加 数据 。 数 
据 库 的 操作 步骤 和 前 面 类 似 ， 只 是 执行 的 SQL 语句 不 同 。 现 在 向 表 STUDENT 中 添加 两 个 学 生 : 
【示例 15-2】 


01 import sqlite3 


02 

03 conn = sqlite3.connect ('students.db') ## 创 建 或 连接 数据 库 
04 c= conn.cursor() # 获 取 游 标 

05 c.execute('''INSERT INTO STUDENT 

06 (ID,NAME, AGE, ADDRESS) 

07 VALUES (1， "刘晓华 '，18， "北京 市 海淀 区 ') 

08 1) 

09 c.execute('''INSERT INTO STUDENT 

10 (ID, NAME,AGE, ADDRESS) 

11 VALUES (2， " 张 毅 '，19， "北京 市 朝阳 区 ?) 

12 和 

13 conn.commit () # 执 行 SQL 语句 
14 ”conn.close() # 关 闭 数据 库 


第 05~12 行 用 两 条 SQL 语句 在 STUDENT 表 中 插入 数据 ， 然 后 在 第 13 行 一 次 提交 即 可 。 


15.1.4 查询 数据 


如 果 需 要 了 解数 据 表 中 到 底 有 多 少数 据 ， 可 以 使 用 SQL 查询 语句 SELECT 进行 操作 。 下 面 查 
询 STUDENT 表 中 的 内 容 。 
【示例 15-3】 


01 import sqlite3 


02 
03 conn = sqlite3.connect ('students.db') # 创 建 或 连接 数据 库 

04 c= conn.cursor() # 获 取 游标 

05 c.execute('SELECT * FROM STUDENT') 

06 #conn.commit() # 执 行 SQL 语句 ， 可 以 省 略 
07 conn.close() # 关 闭 数据 库 


执行 上 述 语 句 后 发 现 并 没有 任何 输出 。 此 时 数据 都 在 游标 中 ， 需 要 使 用 游标 的 fetchall 函数 获 
取 所 有 数据 ， 或 者 使 用 fetchone 获取 单独 一 条 数据 ， 然 后 使 用 print 输出 内 容 ， 可 在 第 05 行 和 06 
行 之 间 添 加 如 下 代码 : 

print(c.fetchall()) 

此 时 输出 结果 如 下 : 

[ (1，' 刘 晓 华 ' ，18， ' 北 京 市 海淀 区 ') ， (2， " 张 毅 '，19， ' 北 京 市 朝阳 区 ') ] 





fetchall 结果 集 是 
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15.1.5 ”更 新 数据 


更 新 数据 是 使 用 SQL 的 UPDATE 语句 ， 其 他 步骤 和 查询 语句 一 样 。 下 面 将 STUDENT 中 第 2 


条 数据 的 年 龄 更 新 为 17。 
【示例 15-4】 





01 import sqlite3 


02 
03 conn = sqlite3.connect ('students.db') ## 创 建 或 连接 数据 库 
04 c= conn.cursor() # 获 取 游标 


05 c.execute('UPDATE STUDENT SET AGE = 17 WHERE ID=2') 
06 conn.commit() 
07 c.execute('SELECT * FROM STUDENT') # 查 询 数据 
08 print(c.fetchall()) # 和 输出 结果 
09 “conn.close() 





第 05 行 语句 执行 后 必须 先 提交 到 数据 库 (第 06 行 ) ， 如 果 不 提 交 ， 数 据 库 内 的 数据 没有 发 


生变 化 ， 后 面 的 查询 就 会 失败 。 本 例 输出 为 : 
[(1， "刘晓华 '，18， ' 北 京 市 海淀 区 ') ， (2， “" 张 毅 '，17， "北京 市 朝阳 区 ') ] 


15.1.6 ”删除 数据 


删除 数据 是 使 用 SQL 的 DELETE 语句 ， 其 他 步骤 和 查询 语句 一 样 。 下 面 将 年 龄 为 
删除 。 
【示例 15-5】 


01 import sqlite3 


02 
03 conn = sqlite3.connect('students.db') # 创 建 或 连接 数据 库 
04 c= conn.cursor() # 获 取 游标 


05 c.execute('DELETE FROM STUDENT WHERE AGE=17') 
06 conn.commit() 


07 cc.execute('SELECT * FROM STUDENT') # 查 询 数据 
08 ”print(c.fetchall()) # 输 出 结果 
09 ”conn.close() 
上 述 结果 输出 为 : 


[ (1，' 刘 晓 华 ' ，18， ' 北 京 市 海淀 区 ') ] 


15.1.7 connect 和 cursor 的 各 种 函数 


17 的 数据 


前 面 学 习 过 数据 的 增 、 删 、 查 、 改 后 ， 读 者 可 能 已 经 发 现 ， 对 于 SQLite 数据 库 的 操作 重点 有 三 





部 分 : connect、cursor 和 SQL 语句 。 因 为 SQL 语句 又 是 单独 的 一 门 查询 语言 ， 所 以 本 


不 详细 展 
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开 说 明 , 读者 可 以 查看 相关 文档 。connect、cursor 都 是 一 些 函 数 的 操作 ， 读 者 详细 了 解 这 些 函 数 后 
就 能 基本 掌握 SQLite 数据 库 了 。 
connect 主要 用 到 的 函数 参见 表 15.1。 


表 15.1 connect 主要 用 到 的 函数 
函数 说 明 
connection.cursor() 获取 cursor， 用 于 操作 数据 库 


connection.execute(sql) 执行 cursor 提供 的 操作 ， 一 般 是 执行 SQL 语句 


connection.executemany(sql[,parameters]) 执行 cursor 提供 的 操作 , 但 通过 参数 可 以 为 一 条 SQL 语句 提供 多 




















条 内 容 
connection.executescript(sql script) 执行 cursor 提供 的 操作 ， 但 可 以 执行 多 条 SQL 语句 
connection.total changes() 返回 自 数据 库 连 接 打开 以 来 被 修改 、 插 入 或 删除 的 数据 库 总 行 数 
connection.commit() 提交 SQL 语句 到 数据 库 
connection rollbackO) 
comection close0 


cursor 主要 用 到 的 函数 参见 表 15.2。 
表 15.2 cursor 主要 用 到 的 函数 





cursor.execute(sql [, optional parameters]) 执行 cursor 提供 的 操作 ， 一 般 是 执行 SQL 语句 


cursorexecutemany(sql, seq_of parameters) 执行 cursor 提供 的 操作 ， 但 通过 参数 可 以 为 一 条 SQL 语句 提供 


多 条 内 容 
cursor.executescript(sql_script) 执行 cursor 提供 的 操作 ， 但 可 以 执行 多 条 SQL 语句 
cursor.fetchone() 获取 查询 结果 中 的 下 一 行 ， 返 回 一 条 数据 ， 当 没有 更 多 可 用 的 


数据 时 ， 返 回 None 
cursor.fetchmany([size=cursor.arraysize]) 获取 查询 结果 中 的 下 一 行 组 ， 返 回 一 个 列表 

















cursor.fetchall() 获取 查询 结果 集中 所 有 行 ， 返 回 一 个 列表 





15.2 操作 MySQL 


MySQL 数据 库 不 是 Python 的 标准 模块 ， 需 要 单独 安装 ， 安 装 步骤 读者 可 以 参考 相关 文档 ， 本 
书 不 再 详细 介绍 。 本 节 的 内 容 主 要 集中 在 Python 为 MySQL 提供 的 PyMySQL 库 。 
15.2.1 安装 PyMySQL 库 


要 使 用 Python 操作 MySQL 数据 库 必须 具备 以 下 两 个 条 件 : 


@ 在 当前 系统 中 已 安装 好 MySQL.。 
”在 当前 Python 中 已 安装 好 PyMySQL 库 。 
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第 1 个 条 件 读者 可 以 自行 安装 。 下 面 在 命令 行 中 输入 pip 安装 命令 : 
pip install PyMySQL 
执行 结果 如 图 15.1 所 示 。 


国 C\Windows\system32\emd.exe 





:Wpip install PyltySQL 
ollecting PylySQL 
Do PylySQL -0. 8. 0-py2. py3-none-any. whl (83kB) 


| 92kB 239kB/s 
Installing collected packages: PyllySQL 
Buccessfully installed PyltySQL-0. 8.0 


:> 





图 15.1 安装 PyMySQL 库 
提示 成 功 安 装 后 ， 如 果 要 操作 MySQL， 则 需要 引入 PyMySQL 库 ， 代 码 如 下 : 


import pymysql 


15.2.2 ”连接 MySQL 数据 库 


在 MySQL 中 创建 一 个 数据 库 Students， 里 面 有 一 个 数据 表 STUDENT,， 表 的 结构 如 表 15.3 所 











承 。 
表 15.3 学 生 表 STUDENT 结构 
列 名 称 类 型 长 度 说 明 
id mm | 夫 
[mme jw lo | 
ee 
[aaaes van | | | 
下 面 演示 如 何 连接 到 数据 库 并 查询 数据 表 。 
【示例 15-6】 
01 import pymysql # 导 入 pymysql 
02 


03 conn = pymysql.connect pymysql.connect( 
host='127.0.0.1',user='root',passwd='',db='Students',charset='utf8') # 连 接 数据 库 

04 c= conn.cursor() 

05 c.execute('SELECT VERSION()') # 获 取 数据 库 版 本 

06 vv = c.fetchall() 

07 print (v) 

08 conn.closel() # 关 闭 数据 库 


从 上 面 的 代码 可 以 看 出 ,与 SQLite 数据 库 相 比 ， 第 1 行 的 引入 模块 有 变化 , 第 3 行 的 connect 
函数 的 参数 有 变化 ， 这 里 有 几 个 参数 : 服务 器 、 登 录用 户 名 、 密 码 、 数 据 库 、 编 码 格式 。 其 他 的 代 
码 和 操作 SQLite 都 一 样 ， 关 键 的 还 是 connect 和 cursor 这 两 个 函数 。 
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全 志 


3 增 、 删 、 查 、 改 数据 


既然 所 有 的 操作 都 与 SQLite 操作 类 似 ， 这 里 我 们 将 增 、 删 、 查 、 改 数据 放 在 一 个 例子 中 进行 


演示 ， 
【 


01 
02 
03 


04 
05 
06 
07 
08 
09 
10 
3L 
2 
3 
14 
5 
16 
17 
18 
19 
20 
2 
22 
23 
24 
25 
26 
27 
28 
迷 训 
30 
31 


请 读者 自行 执行 下 面 代 码 并 查看 结果 。 
示例 15-7】 


import pymysql 


conn = pymysql .connect (host='127.0.0.1',user='root',passwd='',db='Students', 
charset="'utf8') 


c = conn.cursor() 
# 增 加 数据 
Cc.execute('''INSERT INTO STUDENT 


(ID, NAME, AGE, ADDRESS) 
VALUES (1，,， "刘晓华 "，18，" 北 京 市 海淀 区 ") 
i 
) 
c.execute('''INSERT INTO STUDENT 
(ID, NAME, AGE, ADDRESS) 
VALUES (2,，" 张 毅 "，19，" 北 京 市 朝阳 区 ") 


1 ) 


conn.commit () 


# 查 询 数据 
c.execute('SELECT * FROM STUDENT') 
print (c.fetchall ()) 


# 更 新 数据 
c.execute('UPDATE STUDENT SET AGE = 17 WHERE ID=2') 
conn.commit () 


# 删 除数 据 

c.execute('DELETE FROM STUDENT WHERE AGE=17°') 
conn.commit () 

c.execute('SELECT * FROM STUDENT') 

print (c.fetchall ()) 


conn.close() 


15.3 ”使 用 ORM 框架 SQLAIchemy 操作 MySQL 


除 
先 介绍 


了 前 面 介绍 过 的 connect 和 cursor 外 ， 还 有 一 种 操作 数据 库 的 方式 就 是 ORM 模式 。 本 节 首 
ORM 的 概念 ， 然 后 介绍 Python 常用 的 ORM 框架 SQLAlchemy， 最 后 使 用 这 个 框架 操作 


MySQL 数据 库 。 
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15:3.1 


ORM 的 意义 


ORM 的 全 称 是 Object Relational Mapping， 中 文 翻译 为 对 象 关 系 映射 ,简单 来 说 是 把 关系 数据 


库 的 表 结构 映射 到 对 象 上 ， 也 就 是 用 操作 对 象 的 方式 操作 数据 库 。 


本 书 前 面 已 经 学 习 过 面向 对 象 编 程 ， 也 了 解 了 对 象 的 各 种 操作 都 是 “类 .属性 ”、“ 类 .方法 ” 
这 种 方式 。 现 在 创建 一 个 与 上 面 数据 库 相 似 的 学 生 类 ， 回 顾 一 下 对 象 的 操作 。 
【示例 15-8】 


class Student () : 
def _ init (self, id, name,age,address): 
self.id = id 
self.name = name 
self.age = age 
self.address = address 


s=Student (1, ' 刘 晓 华 ', 16,' 北京 市 海淀 区 ' ) 
Print (s.name) 


# 构 造 方法 ，4 个 参数 


# 实 例 化 类 创建 对 象 = 


上 述 代 码 创建 Student 类 ， 在 其 构造 方法 中 设计 了 4 个 参数 ， 对 应 表 中 的 4 个 字段 。 构 建 一 个 


对 象 s 就 相当 于 创建 了 表 中 的 


仅 是 操作 了 对 象 ， 并 没有 将 数据 更 新 到 数据 库 中 。 


ORM 的 意义 就 在 于 不 仅 让 我 们 可 以 像 操 作对 象 一 样 操作 数据 ， 





-条 记录 ， 输 出 sname 就 好 似 查 询 列表 中 的 一 个 数据 。 以 上 代码 仅 


还 能 将 数据 保存 到 数据 库 中 。 


以 后 就 不 需要 操作 人 烦琐 的 SQL 语句 了 ， 只 需要 把 数据 作为 对 象 操作 即 可 。 


15.3.2 


SQLAIchemy 是 Python 中 常用 的 


安装 SQLAIchemy 


pip install sqlalchemy 


安装 后 的 结果 如 图 15.2 所 示 。 


- 款 ORM 框架 ， 使 用 前 必须 先 安装 ， 使 用 pip 安装 : 





丽 C\Windows\system32\cemd.exe 


Jicrosoft Windows [版 本 10.0. 16299. 192] 
(c) 2017 MGcrosoft Corporation。 保 留 所 有 权利 。 


:\Users\tinaPip RE sqlalchemy 


ollecting sqla 
Downloading SQLAlchemy-1.2. 2 tar gz (5. 5ND 
100% | 


IInstalling collected packages: sqlalchemy 
Running setup.py install for sqlalchemy ... done 
Ss ET sqlalchemy-1. 2.2 I 








:\Users\tina> 





| 5. SMB 150kB/s 








图 15.2 安装 SQLAIchemy 
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15.3.3 导入 SQLAIchemy 


ORM 的 使 用 比较 复杂 ， 首 先 需要 将 对 象 与 表 结构 一 一 映射 起 来 ， 导 入 SQLAlchemy 时 ， 要 导 
入 一 些 必 要 的 类 型 ,比如 String 类 型 与 表 结 构 中 的 字符 类 型 对 应 起 来 。 一 般 导 入 SQLAlchemy 有 以 
下 几 项 : 


(1) from sqlalchemy import create engine # 用 来 连接 数据 库 
(2) from sqlalchemy import Column, String, Integer # 列 、 字 符 串 、 数 字 
(3) from sqlalchemy.ext.declarative import declarative base # 映 射 相关 
(4) from sqlalchemy.orm import sessionmaker # 持 久 化 


(1) 导入 的 create_engine 用 于 创建 数据 库 连接 ， 类 似 于 Python 自 带 的 connect 函数 。 连 接 形 
式 如 下 : 


"数据 库 类 型 + 数据 库 驱 动 名 称 : // 用 户 名 :密码 8 服务 器 地 址 :端口 号 /数据 库 名 ' 
比如 ; 


mysql+mysqldb: //root:8@localhost:3306/Students?charset=utf8 


这 里 需要 注意 ，mysqldb 是 Python 支持 的 MySQL 数据 库 驱 动 ， 默认 并 没有 安装 ， 各 操作 系统 
的 安装 方法 如 下 : 

® pip install mysqlclient ( Windows) 

® pip install mysqL-python ( mix os) 

® apt-get install python-mysqldb (Linux Ubuntu) 


(2) 因为 类 要 对 应 数据 表 中 的 每 一 列 ， 所 以 还 要 引入 Column， 以 及 数据 列 的 各 种 类 型 ， 如 
String、Integer， 其 他 还 有 Text、Boolean 等 。 

(3) SQLAlchmey 提供 了 一 套 Declarative 系统 来 完成 映射 的 任务 , 需要 导入 declarative_base。 

(4) 操作 对 象 时 使 用 的 持久 化 对 象 。 


15.3.4 ”使 用 SQLAIchemy 操作 数据 库 


完成 安装 SQLAlchemy 及 mysqldb 驱动 后 ， 现 在 开始 演示 使 用 SQLAlchemy。 
【示例 15-9】 


01 from sqlalchemy import create engine 

02 from sqlalchemy import Column,String,Integer 

03 from sqlalchemy.ext.declarative import declarative base 
04 from sqlalchemy.orm import sessionmaker 


05 

06 Base = declarative base() 

07 

08 class Student (Base): 

09 _ tablename ”= 'student'# 表 的 名 称 

10 # 表 的 结构 

3 id = Column (Integer, primary key=True) 
12 name = Column (string(10)) 


13 age = Column(Integer) 


第 15 章 “Python 数据 库 编程 实战 | 287 





14 address = Column (String(30) ) 
15 

16 engine = create_engine ("mysqlimysqldb://root:@localhost:3306/Students?charset=utf8") 
17 Session = sessionmaker (bind=engine) # 创 建 持久 化 对 象 

18 session = Session() 

19 


20 ”s=Student (id=1v,name=' 刘 晓 华 ' ,age =16,address=' 北 京 市 海淀 区 ') 

21 session.add(s) 

22 session.commit() # 提 交 更 改 到 数据 库 

23 session.close() 坦 关闭 session 

第 01~04 行 导入 SQLAlchemy 所 需要 的 模块 。 第 08~14 行 构建 一 个 学 生 对 象 ， 这 个 对 象 要 与 
数据 库 中 的 学 生 表 字段 数量 和 类 型 一 致 。 第 17 行 需要 创建 持久 化 对 象 , 用 于 进行 各 种 增 、 删 、 查 、 
改 的 操作 。 第 20 行 很 关键 , 创建 一 个 数据 库 对 象 并 为 其 中 的 属性 赋值 。 第 21 行使 用 add 方法 实现 
数据 最 终 的 增加 。 

第 06 行 相当 于 创建 一 个 映射 基 类 ， 然 后 第 08 行 在 创建 自 定义 的 数据 表 类 时 要 继承 该 基 类 。 

如 果 是 查询 数据 库 中 的 数据 ， 则 使 用 query 方法 : 


ss = session.query(Student) .one () # 返回 一 条 数据 
Print(ss.name) 


如 果 要 返回 所 有 数据 ， 则 需要 用 序号 指定 输出 的 是 哪 条 数据 : 


ss = session.query(Student) .all() # 返回 所 有 数据 
print(ss[0] .name) 


其 他 有 关 session 更 多 的 方法 ， 可 参考 官方 网 站 http://docs.sqlalchemy.org/en/latest/orm 
/Session_api.html#session-and-sessionmaker。 


Scrapy 有 息 虫 实战 


网 络 息 虫 的 最 终日 的 就 是 从 网 页 中 获取 自己 所 需要 的 内 容 。 最 直接 的 方法 是 使 用 urllib2 请 求 
网 页 得 到 结果 ， 然 后 使 用 re 取得 所 需 的 内 容 。 但 网 站 页 面 不 可 能 是 统一 的 ， 都 有 其 自己 的 特点 ， 
获取 每 个 页 面 信息 的 方法 都 可 能 需要 进行 微调 。 如 果 所 有 的 息 虫 都 这 样 写 ， 那 工作 量 未 免 太 大 了 ， 
所 以 才 有 了 疏 虫 框架 。 

Python 下 的 仆 虫 框架 不 少 ， 笔 者 认为 比较 简单 的 就 要 数 Scrapy 了 。 首 先 它 的 资料 比较 全 ， 网 
上 指南 、 教程 都 比较 多 ; 其 次 它 够 简单 ， 只 要 按 需 填空 即 可 ,轻松 就 能 获取 记 需 的 内 容 ,非常 方便 。 


16.1 安装 Scrapy 


Scrapy 的 官方 网 址 是 http://scrapy.org/， 当 前 版 本 为 Scrapy 1.5。Scrapy 的 安装 方式 有 很 多 , 官 
方 网 站 上 就 给 出 了 4 种 安装 方法 : PyPI、Conda、APT 和 Source。 


16.1.1 Windows 下 安装 Scrapy 环境 


在 Windows 下 安装 Scrapy 除了 不 能 使 用 APT 安装 外 ， 其 他 3 种 方法 都 是 可 以 的 。 这 里 笔者 
选择 了 PyPI 安装 ， 也 就 是 pip 安装 。pip 安装 Scrapy 的 前 提 条 件 是 已 经 安装 好 了 Python 并 配置 好 
了 pip 源 。 如 果 这 些 条 件 已 经 具备 ， 安 装 Scrapy 只 需要 打开 cmd， 执 行 一 条 命令 即 可 。 


pip install scrapy 


执行 结果 如 图 16.1 所 示 。 
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国信 人气 符 - DO x 


icrosoft Windows [版 本 10. 0. 16299. 192] ^ 
(c) 2017 Mi crosoft Corporation。 保 留 所 有 权利 。 


[:\Users\king>pip install scrapy 
ollecting scrapy 

Downloading http://pypi. doubanio. com/packages/a8/96/3affellcf53a5d210553691911 
d5b453479033bb42617387f4ced4a3b33f1Scrapy-1. 4. 0-py2. py3-none-any. whl 248kB) 








2 TIB/s eta 0:0 
| 133kB 3. 4IB/s eta 0 
| 143kB 4. 2NB/s eta 
| 153kB 4.0NB/s eta 
| 163kB 5. 2NB/s et 

| 174kB 5. 3MB/s 
| 184kB 5. 5IB/s 
| 194kB 6. ONB/ 
| 204kB 6. 5 
| 和 6.2 


3. 1.0 (from scrapy) 
Dowloading http://pyp om/packages/a2/37/29819547606c45d75aa9792369 
802cc63aadbbcf7b5f607560 














图 16.1 使 用 pip 安装 scrapy 
在 Windows 下 安装 Scrapy 可 能 会 遇 到 依赖 包 Twisted 无 法 
如 果实 在 安装 不 了 ， 可 以 选择 安装 anaconda 后 再 使 用 conda 包 管 


:安装 的 问题 ( 


16.1.2 ”Linux 下 安装 Scrapy 


在 Linux 下 也 只 能 采取 pip 的 安装 方式 安装 Scrapy。 
了 Python 2 和 Python 3， 所 以 安装 命令 需要 稍微 修改 





python3 -m pip install scrapy 


执行 结果 如 图 16.2 所 示 。 





图 16.2 使 用 apt-get 安装 scrapy 


般 没什么 问题 ) 
理工 具 来 安装 Scrapy for Python3。 


意 ， 因 为 Linux 下 默认 安装 
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查看 安装 的 scrapy 版 本 ， 如 图 16.3 所 示 。 


池 king@debiana: ~ 


king@debian8:~$ scrapy 
Scrapy 1.5.0 - no active project 


Usage: 
scrapy <command> [options] [args] 


vailable commands: 
bench Run quick benchmark test 
fetch Fetch a URL using the Scrapy downloader 
genspider Generate new spider using pre-defined templates 
runspider Run a self-contained spider (without creating a project) 
settings Get settings values 
shell Interactive scraping console 
startproject Create new project 
version Print Scrapy version 
view Open URL in browser, as seen by Scrapy 


! more ] More commands avatlable when run from project directory 


Use "scrapy <command> -h" to see more info about a command 
king@debiang:~$ 
king@debiang:~$ 





图 16.3 Scrapy 版 本 


现在 Scrapy 已 经 安装 完毕 ， 可 以 使 用 了 。 


16.1.3 vim 编辑 器 


本 章 的 Scrapy 项 目 主 要 是 在 Linux 下 运行 。 目 前 在 Linux 下 常用 的 IDE 还 是 Eclipse， 但 比较 
方便 的 却 是 vim (vim 是 vi 的 强化 版 ， 而 vi 是 所 有 Linux 发 行 版 本 都 默认 安装 的 ) 。 

vim 是 一 个 文本 编辑 器 ,在 上 手 时 可 能 稍微 有 点 麻烦 。 它 有 一 些 快捷 键 和 命令 是 必须 记 住 的 ( 实 
际 上 只 需要 记 住 常用 的 几 个 操作 就 可 以 了 ， 如 定位 、 复 制 、 粘 贴 、 删 除 、 替 换 ……) ， 可 以 边 使 用 
边 记忆 。 等 熟悉 了 vim 的 操作 方法 ， 就 会 发 现 文本 编辑 是 如 此 简单 。 对 不 同 的 编程 语言 配合 不 同 
的 插件 ， 可 以 将 vim 配置 成 为 一 个 专属 的 IDE。 

vim 安装 非常 简单 ， 使 用 Putty 登录 Linux 后 ， 以 root 用 户 执行 命令 : 


apt-get install vim 


vim 的 配置 文件 是 /etc/vim/vimre 和 /home/user/vim/vimrc (对 于 用 户 king 来 说 就 是 
/home/king/.vim/vimre) ， 前 者 是 系统 配置 文件 ， 后 者 是 用 户 的 配置 文件 。 若 两 者 相 冲 突 ， 则 以 后 
者 为 主 〈 这 个 有 点 类 似 于 编程 语言 中 的 全 局 变量 与 函数 变量 同名 时 作用 域 的 关系 ) 。 

vim 的 配置 项 有 很 多 ， 这 里 就 不 一 一 列举 ， 为 了 方便 编写 Python 程序 ， 这 里 只 修改 比较 简单 
的 设置 。 笔 者 的 vimre 文件 如 下 : 

01 set tabstop=4 


02 set number 
03 set noexpandtab 





第 1 行 是 将 tabstop 设置 成 4 个 空格 ， 第 2 行 是 显示 行 号 ， 第 3 行 不 将 tabstop 转换 成 空格 。 
如 果 经 常 在 Linux 编写 Python 程序 ， 可 以 到 github 上 下 载 vim 变 身 Python IDE 的 配置 文件 。 
仔细 调试 一 下 ， 会 发 现 vim IDE 不 比 Windows 下 的 Python IDE 差 。 
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16.2 ”Scrapy 选择 器 XPath 和 CSS 


在 使 用 Scrapy 扑 取 数据 前 需要 先 了 解 Scrapy 的 选择 器 。 网 络 爬 虫 原理 就 是 获取 网 页 返回 ， 然 
后 提取 所 需 的 内 容 。 获 取 网 页 返回 很 简单 ， 重 点 就 在 提取 内 容 上 。 如 何 提取 ? 使 用 Python 的 re 模 
块 ， 在 前 面 章节 已 经 党 试 过 了 。 简 单 网 页 用 re 模块 提取 即 可 ， 复 杂 一 点 的 提取 内 容 会 麻烦 一 点 。 
不 是 说 完全 不 可 以 ， 但 是 有 简单 的 方法 又 何必 去 自己 编写 新 方法 呢 。 

Scrapy 提取 数据 有 自己 的 一 套 机 制 ， 它 们 被 称 为 选择 器 〈seletors) ， 通 过 特定 的 XPath 或 CSS 
表达 式 来 “选择 ”HTML 文件 中 的 某 个 部 分 。 

XPath 是 一 门 用 来 在 XML 文件 中 选择 节点 的 语言 ,也 可 以 用 在 HTML 上 。CSS 是 一 门将 HTML 
文档 样式 化 的 语言 。 选 择 器 由 它 定 义 并 与 特定 的 HTML 元 素 的 样式 相关 联 。 

Scrapy 的 选择 器 构建 于 Ixml 库 之 上 ， 这 意味 着 它们 在 速度 和 解析 准确 性 上 非常 相似 。 所 以 喜 
欢 哪 种 选择 器 就 使 用 哪 种 吧 ， 它 们 从 效率 上 是 完全 没有 区 别 的 。 


16.2.1 XPath 选择 器 


XPath 是 一 门 在 XML 文档 中 查找 信息 的 语言 。XPath 可 用 来 在 XML 文档 中 对 元 素 和 属性 
进行 遍历 。XPath 含有 超过 100 个 内 置 的 函数 ， 这 些 函 数 用 于 字符 串 值 、 数 值 、 日 期 和 时 间 比 较 、 
节点 和 QName 处 理 、 序 列 处 理 、 轴 辑 值 等 。 在 网 络 爬 虫 中 只 需要 利用 XPath“ 采 集 ” 数 据 ， 如 果 
想 深 入 研究 XPath， 可 参考 www.w3school.com.cn 中 的 XPath 教程 。 

在 XPath 中 有 元 素 、 属 性 、 文 本 、 命 名 空间 、 处 理 指令 、 注 释 及 文档 节点 〈 或 称 为 根 节 点 ) 7 
种 类 型 的 节点 。XML 文档 是 作为 节点 树 来 对 待 的 ， 树 的 根 称 为 文档 节点 或 根 节点 。 

【示例 16-1】 做 个 简单 的 XML 文件 ， 以 便 演示 。 执 行 以 下 命令 : 

ca 

mkdir scrapy 

cd code/scrapy 

mkdir -pv scrapy/seletors 


cd scrapy/seletors 
vi superHero .xml 


在 这 里 创建 了 scrapy 的 工作 目录 scrapyProject， 并 在 该 目录 下 创建 了 选择 器 的 工作 目录 
seletors。 在 该 目录 下 创建 选择 器 的 演示 文件 superHero.xml。superHero.xml 的 代码 如 下 : 


01 <superhero> 


02 <class> 

03 <name lang="en">Tony Stark </name> 
04 <alias>Iron Man </alias> 

05 <sex>male </sex> 

06 <birthday>1969 </birthday> 

07 <age>47 </age> 


08 </class> 
09 <class> 
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10 <name lang="en">Peter Benjamin Parker </name> 
二 <alias>Spider Man </alias> 
12 <sex>male </sex> 
13 <birthday>unknow </birthday> 
14 <age>unknown </age> 


15 </class> 
16 <class> 


Yl <name lang="en">Steven Rogers </name> 
18 <alias>Captain America </alias> 
19 <sex>male </sex> 


20 <birthday>19200704 </birthday> 
2 <age>96 </age> 

22 </class> 

23 </superhero> 


很 简单 的 一 个 XML 文件 ， 在 浏览 器 中 打开 这 个 文件 ， 如 图 16.4 所 示 。 


This XML file does not appear to have any style information associated with it. The document tree is showmn below. 





1ang= en )Toany Starkc/nane> 
《allas>Iran Mand/alias, 
《3eX7JNa]6X/ sex, 
birthday>1969¢/birthday) 

age)d1 /age, 








《name lang="en' Peter Benjanin Parker /rane> 
alias)Spider ManC/alias; 

sex malel/ sex 

hday>urknow/birthday) 

minomt/age) 










ane lang="er'’)Steven Rogersd/rane 
ias)Captain 如 ericaK/alias 
《sex>a18</ sex 
birthday>19200704C/birthday 
age)% /age) 
/elass, 
/superhero) 








16.4 选择 器 演示 文件 superHero.xml 


后 面 的 选择 器 都 以 该 文件 为 示例 。 在 superHero.xml 中 ，<superhero> 是 文档 节点 ，<alias>Iron 
Man</alias> 是 元 素 节点 ，lang="en" 是 属性 节点 。 
从 节点 的 关系 来 看 , 第 一 个 Class 节点 是 name、alias、sex、birthday、age 节点 的 父 节 点 (Parent ) 。 
反 过 来 说 ，name、alias、sex、birthday、age 节点 是 第 一 个 Class 节点 的 子 节点 〈Childer) 。name、 
alias、sex、birthday、age 节点 之 间 互 为 同胞 节点 〈sibling) 。 这 只 是 个 比较 简单 的 例子 ， 如 果 节 点 
J “深度” 足够， 还 会 有 先辈 节点 (Ancestor) 和 后 代 节 点 (Descendant) 。 
XPath 使 用 路 径 表 达 式 在 XML 文档 中 选取 节点 。 表 16.1 中 列 出 了 常用 的 路 径 表 达 式 。 


表 16.1 常用 的 路 径 表 达 式 














表达 式 描述 
nodeName 选取 此 节点 的 所 有 子 节点 
/ 从 根 节点 选取 








/ 从 匹配 选择 的 当前 节点 选择 文档 中 的 节点 ， 不 考虑 它们 的 位 置 
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( 续 表 ) 








选取 当前 节点 





选取 当前 节点 的 父 节 点 





选取 属性 





匹配 任何 元 素 节点 





匹配 任何 属性 节点 








匹配 任何 类 型 的 节点 





下 面 用 XPath 选择 器 “采集 ”XML 文件 中 所 需 的 内 容 ， 先 做 好 准备 工作 。 执 行 命令 : 


python3 


from scrapt.selector import Selector 


with open(‘./superHero.xml’,’r’) as fp: 
body = fp.read() 
Selector (text=body) .xpath(‘/*’) .extract () 


首先 启动 Python， 导 入 scrapy.selector 模块 中 的 Selector， 打 开 superHero.xml 文件 ， 并 将 其 内 
容 写 入 到 body 变量 中 , 最 后 使 用 XPath 选择 器 显示 superHero.xml 文件 中 的 所 有 内 容 。 执 行 结果 如 


图 16.5 所 示 。 





> from 
>>> with op 


记 king@debian8: ~/code/crawler_ script 一 口 X 







for more information. 

















tai ica < 
t<age>96 </age> 














图 16.5 XPath 选择 器 准备 工作 


选择 器 在 根 节点 选择 所 有 节点 时 得 到 的 数据 和 直接 从 文件 中 读 取 的 数据 有 点 不 一 样 。 因 为 


示例 文件 并 不 是 一 个 标准 的 html 文件 ,所 以 在 选择 器 中 被 自动 添加 了 <html> 和 <body> 标 签 。 
也 就 是 说 在 选择 器 看 来 ， 示 例文 件 的 根 节点 并 不 是 <superhero>， 而 是 <html>。 





现在 来 看 一 下 如 何 使 用 XPath 选择 器 “收集 ”数据 ， 如 图 16.6 所 示 。 
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>>> princ(' 采 集 superHero.xml 中 第 一 个 class 的 内 容 ') 
采集 superHero.xml 中 第 一 个 class 的 内 容 
>>> Selector (text=bod ” th("' /html/bog uperhe. class[1]') .extract 
[u'<class>\n\t<name lang="en">Tony Stark </name>\n\t<alias>Iron Man </alias>\n\t 
<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</class>'] 
Ne 
>>> print (' 采 集 superHero.xmli 中 最 后 一 个 class 的 内 容 ') 

集 superHero.xml 中 最 后 一 个 class 的 内 
>>> Selector (text=bodi .Xxpath('/html/body/superhero/class[last ") .extract 
to SA 
alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age>96 </age>\n 
</class>'] 


>>> 
>>> print (' 采 集 superHero.xml 中 name 属 性 为 en 的 数据 ') 
采集 superHero.xml 中 name 属 性 为 en 的 数据 


>>> slsssgzkssxs=bosdyl xpasb0 yi[aams[I8laag="sa"] SXEracEL 


[u'<name lang="en">Tony Stark </name>', u'<name lang="en">Peter Benjamin Parker 
</name>', u'<name lang="en">Steven Rogers </name>'] 


>>> print (' 采 集 superHero.xml 中 倒数 第 二 个 class 的 name 节 点 的 文本 ') 

集 superHero.xml 中 倒数 第 二 个 class 的 name 节 点 的 文本 
>>> = ， superhero/class[last () -1]/name/text )' 
) .extract() 
[u'Peter Benjamin Parker '] 
>>> 
>>> print (' 以 下 展示 的 是 嵌 套 选择 器 ') 
以 下 展示 的 是 峙 套 选 择 器 
>>> subBody = Selector(text=body) .xpath('/html/body/superhero/class[last ()-1]'). 
一 一 一 
>>> subBody 
[u'<class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man 
</alias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </ 
age>\n</class>'] 


>>> Selectorlcexc=subaody (0) xPachl /heml/body/class/sex/text)) extract 
[u'male 

>>> Selector(text=subBody[0]) .xpath('//class/sex/text ()') .extract () 
和 


图 16.6 XPath 选择 器 收集 数据 


XPath 中 常用 的 几 个 方法 就 是 如 此 了 ， 非 常 简单 。“ 隐 藏 ”得 不 太 深 的 数据 直接 用 XPath 选择 
器 挑选 数据 就 可 以 。 复 杂 一 点 的 ， 用 配套 选择 就 能 很 方便 地 搞定 。 只 要 有 点 耐心 ， 再 复杂 的 数据 也 
可 以 分 离 出 来 。 





16.2.2 CSS 选择 器 


CSS 看 起 来 很 眼熟 是 不 是 ? 没 错 ， 就 是 你 已 经 知道 的 那个 CSS 一 一 层 合 样式 表 。CSS 规则 由 
两 个 主要 的 部 分 构成 : 选择 器 及 一 条 或 多 条 声明 。 


selector {declarationl; declaration2; ... declarationN } 


CSS 是 网 页 代码 中 非常 重要 的 一 环 , 即使 不 是 专业 的 Web 从 业 人 员 , 也 有 必要 认真 学 习 一 下 。 
这 里 只 简略 介绍 一 下 与 朴 虫 密切 相关 的 选择 器 。 表 16.2 中 列 出 了 CSS 经 常 使 用 的 几 个 选择 器 。 


表 16.2 CSS 选择 器 
选择 器 说 明 
.Class .intro 选择 class= "intro" 的 所 有 元 素 
#id | #firstname 选择 id= "firstname" 的 所 有 元 素 
* |* 选择 所 有 元 素 
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( 续 表 ) 
Element p 选择 所 有 <p> 元 素 
elementelement | divp 选择 所 有 <div> 元 素 和 所 有 <p> 元 素 
element element | divp 选择 <div> 元 素 内 部 的 所 有 p 元 素 
[attribute] | [aeed 选择 带 有 target 属性 的 所 有 元 素 
[attribute=value] | [target= blank] 选择 target= " blank" 的 所 有 元 素 








与 XPath 选择 器 相 比较 ，CSS 选择 器 稍微 复杂 一 点 ， 但 其 强大 的 功能 弥补 了 这 点 缺陷 。 下 面 
就 来 试验 一 下 CSS 选择 器 是 如 何 收集 数据 的 ， 如 图 16.7 所 示 。 


| Pking@debian: ~/code/ 






中 >>> 1sssgzlssxs=body) ,csza0 cla22, ,sx5z2c5 几 <^ 


[lu'<class>\n\t<name lang="en">Tony Stark </name>\n\t<alias>Iron Man </alias>\n\t 
<sex>male </sex>\n\t<birthday>1969 </birthday>\n\t<age>47 </age>\n</class>', u'< 
class>\n\t<name lang="en">Peter Benjamin Parker </name>\n\t<alias>Spider Man </a 
1lias>\n\t<sex>male </sex>\n\t<birthday>unknow </birthday>\n\t<age>unknown </age> 
\n</class>', u'<class>\n\t<name lang="en">Steven Rogers </name>\n\t<alias>Captai 
n America </alias>\n\t<sex>male </sex>\n\t<birthday>19200704 </birthday>\n\t<age 
用 >36 </age>\n</class>'] 

>>> 

>>> Selector (text=body) .css('class name') .extract () 

[u' SE TIE TE SE T/T UT TSng-"en">Pecer Benjamin Parker 
</name>', u'<name lang="en">Steven Rogers </name>'] 

>>> 

>>> Selector (text=body) .css('class name') .extract () [0] 

bc<dSRE Ton We Ten Stark /rene 

>>> Selector (text=body) .css('[lang]') .extract() [0] 

|a'<name lang="en">Tony Stark </name>' 


>>> Selector (text-body) .cs (liang-"en")) .ecracEl) 
|(u'<name lang="en">lony Stark </name>', u'<name lang="en">Peter Benjamin Parker 





图 16.7 CSS 选择 器 收集 数据 


因为 CSS 选择 器 和 XPath 选择 器 都 可 以 嵌 套 使 用 ， 所 以 它们 可 以 互相 嵌 套 ， 这 样 收集 数据 就 
会 更 加 方便 。 


16.2.3 ”其 他 选择 器 


XPath 选择 器 还 有 一 个 .re0 方 法 ， 用 于 通过 正则 表达 式 提取 数据 。 不 同 于 使 用 .xpath0) 或 .css() 
方法 ，.re() 方 法 返回 unicode 字符 串 的 列表 ， 无 法 构造 嵌 套 式 的 .re0 调 用 。.reO0 使 用 方法 如 图 16.8 
所 示 。 


>>> 

>>> Selector (text=body) .xpath('/html/body/superhero/class[1]') .re('>.*?<') 
[u'>Tony Stark <', u'>Iron Man <', u'>male <', u'>1969 <', u'>47 <'] [ 
>>> [| 





1 





图 16.8 re 选择 器 收集 数据 


这 种 方法 并 不 常用 ， 个 人 觉得 还 不 如 在 程序 中 添加 代码 直接 用 re 模块 方便 。 
因为 Scrapy 选择 器 建 于 lxml 之 上 ， 所 以 它 也 支持 一 些 EXSLT 扩展 ， 这 里 就 不 做 说 明了 ， 有 
兴趣 的 读者 可 以 自行 Google。 
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16.3 天 气 预 报 项 日 


上 一 节 使 用 Scrapy 做 了 一 个 比较 简单 的 候 虫 。 本 节 稍微 增加 点 难度 ， 做 一 个 所 需 项 目 多 一 点 
的 候 虫 ， 并 将 息 虫 的 结果 以 多 种 形式 保存 起 来 。 我 们 就 从 网 络 天 气 预 报 开始 吧 。 


16.3.1 项 目 准备 


首先 要 做 的 是 确定 网 络 天 气 数据 的 来 源 。 打 开 百 度 并 搜索 “网 络 天 气 预报 ”， 搜 索 结果 如 图 
16.9 所 示 。 


Bai 宾 ER Fs 


条 本 贴吧 知 首 音乐 图 片 视 


方 权 同 发 布 天 气 允 系 .还 三 小 时 天 气 损 反 提 泊 天 气 类 所 
醒 生 天 艺林 各 可 天 在 亲 . 空 所 新 第 生活 柏 数 


去 气 预 报 查 询 一 图 天 气 预 报 15 天 吉 询 今天 明天 未 来 天 气孔 报 吉 询 

snqi com) 信 交代 全 国 及 世界 各 大 产 市 天 气 灯 报 查询 
气 准确 捍 亿 天气 祝 报 一 周 查 泪 马 未 未 
二 和 9 








16.9 百度 搜索 数据 来 源 站 点 


有 很 多 网 站 可 以 选择 ， 任 意 选择 一 个 就 可 以 。 这 里 笔者 选择 的 是 http:/wuhan.tianqi.com/。 在 
浏览 器 中 打开 该 网 站 ， 并 找到 所 属 的 城市 ， 将 会 出 现 当地 一 周 的 天 气 预 报 ， 如 图 16.10 所 示 。 


武 内 天 气 预 撒 武汉 生活 指数 武 双 历史 天 气 武 双 空气 局 里 


武汉 今天 天 气 武汉 当前 温度 风向 风力 ms:m 上 
jr: 适 家 
31.6° 洗车 斤 : 较 关 家 
a 二 旅游 指 站 : 通 家 
aaaz 几 
多 云 相对 尘 度 : 44% 东北 风 oO mab 
东北 ?如 2 时 天 < 硬 扫 鬼 关 注 天 天 狠 报 天 气 。 装 * 详细》 
湖北 武汉 天 气 预报 一 周 武汉 10 天 天 气 。 武汉 15 天 天 气 武汉 30 天 天 气 
武人 SB 天 气 。 。 武汉 明日 天 气 。。 武后 天天 气 。 武 Roe 日 天 气 。。 武 RrE 天 气 。。 武 W09 昌 天气 
星期六 日 星期 一 = = 星期 四 
HC“22C 31C 21C 3tC22C 30C2oC 3aC2ITC 3zczzC 
宛 去 去 多云 明 Ee 


阴 
东北 风 z 般 。 无 持 综 风 和 句 微风 。 无 持 综 风 向 微风 。 无 持 综 风 向 微 愉 无 持 综 风 向 筑 风 。 无 持 综 风 向 向 风 


16.10 本 地 一 周 天 气 
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在 这 里 包含 的 信息 有 城市 日 期 、 星 期 、 天 气 图 标 、 温 度 、 天 气 状况 及 风向 。 除 了 天 气 图 标 是 
以 图 片 的 形式 显示 ， 其 他 几 项 都 是 字符 串 。 本 节 Scrapy 怜 虫 的 目标 将 包含 所 有 的 有 用 信息 。 至 此 ， 
items.py 文件 已 经 呼之欲出 了 。 


16.3.2 ”创建 编辑 Scrapy 扑 虫 


首先 打开 Putty 并 连接 到 Linux。 在 工作 目录 下 创建 Scrapy 项 目 ， 根 据 提示 依照 spider 基础 模 
版 创建 一 个 spider。 执 行 命令 : 


cd 

cd code/scrapy 

scrapy startproject weather 

cd weather 

scrapy genspider wuHanSpider wuhan.tianqi.com 


执行 结果 如 图 16.11 所 示 。 


Pking@debian8: ~/code/scrapy/weather 


kingedebian8:~$ cd 

kingedebian8:~$ cd code/scrapy 

kingedebian8:~/code/scrapy$ scrapy startproject weather 

New Scrapy project 'weather', using template directory '/home/king/anaconda3/1ib 

/python3.6/site-packages/scrapy/templates/project', created in: 
/home/king/code/scrapy/weather 


You can start your first spider with: 


cd weather 
scrapy genspider example example.com 
king@debian8:~/code/scrapy$ cd weather/ 
king@debian8:~/code/scrapy/weather$ scrapy genspider wullanSpider tianqi.com 
created spider 'wulanSpider' using template 'basic' in module 
weather. spiders.wulanSpider 
kingedebiang:~/code/scrapy/weathers 目 





图 16.11 创建 Serapy 项 目 
项 目 模版 创建 完毕 ， 项 目 文件 如 图 16.12 所 示 。 


办 king@debian8: ~/code/scrapy/weather 


~/code/scrapy$ cd weather/ 
~/code/scrapy/weather$ scrapy genspider wuHanspider tianqi.com 
der "walanSpider' using template ‘basic! in module: 
weather. spiders. wulanSpider 
kingedebianB:~/code/scrapy/weather$ tree ./ 
-/ 
| scrapy-ctg 


HF middlewares.py 
HF pipelines.py 


cpython-36-pyc 
cpython-36.pyc 


Fs 
a 
[~ tn de 
Ls mia 





kingedebian8:~/code/scrapy/weather$ 目 


16.12 ”基础 项 目 模 版 
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1. 修改 items.py 


按照 上 一 节 中 的 顺序 ， 第 一 个 要 修改 的 还 是 items.py。 修 改 后 的 items.py 代码 如 下 : 


0 # -*- coding: Utf-8 一 * 一 

02 

03 # Define here the models for your scraped items 
04# 

05 # See documentation in: 

06 # http://doc.scrapy.org/en/latest/topics/items.html 
07 

08 import scrapy 

09 

10 

11 class WeatherItem(Scrapy.Item) : 

了 之 # define the fields for your item here like: 
3 # name = scrapy.Field() 

14 cityDate = scrapy.Field() # 城 市 及 日 期 

15 week = scrapy.Field() # 星 期 

16 img = scrapy.Field() # 图 片 

17 temperature = scrapy.Field() # 温 度 

18 weather = scrapy.Field() # 天 气 

19 wind = scrapy.Field() # 风 力 


在 items.py 文件 中 ， 只 需要 将 希望 获取 的 项 目 名 称 按照 文件 中 示例 的 格式 填 入 即 可 。 唯 一 需 
要 注意 的 就 是 每 一 行 最 前 面 的 到 底 是 空格 还 是 Tabstop。 这 个 文件 可 以 说 是 Scrapy 疏 虫 中 最 没有 技 


术 含量 的 一 个 文件 了 。 
2. 修改 Spider 文件 wuHanSpider.py 


按照 上 一 节 的 顺序 ， 第 二 个 修改 的 文件 应 该 轮 到 spiders/wuHanSpider.py 了 。 和 暂时 先 不 要 修改 


文件 ， 使 用 scrapy shell 命令 来 测试 、 获 取 选 择 器 。 执 行 命令 : 


scrapy shell https://www.tiangi.com/wuhan/ 


执行 结果 如 图 16.13 所 示 。 








lscrapy.core.engine] INFO: Spider opened 





ianqi .com/robots.cxt> (referer: None) 
2 
anqi .com/wuhan/> (referer: None) 

| 2018-01-30 16:11:38 [traitlets] DEBUG: Using default logger 


























2018-01-30 16:11:38 {traitlets) DEBUG: Using default logger 
[s] Available Scrapy objects: 
Is] scrapy scrapy module (contains scrapy.Request, scrapy.Selector, 
fs] crawler <scrapy.crawler.Crawler object at Ox7f91dd6e4208> 
fs] item {0 
request <GET https://www.tiangi.com/wuhan/> 
[s] [response <200 https://www.tiangi.com/wuhan/> 
[s] settings <scrapy.settings.Settings Object at Ox7f91dd6e40b8> 
{s] spider <WuhanspiderSpider "wuHanSpider， at Ox7f91dd25cb00> 
{s】 Useful shortcuts: 
{s] fetch(urll, redirect~True]) Fetch URL and update local objects (by default 
redirects are followed) 
Is] fetch(req) Fetch a scrapy.Request and update local object 
= 
fs] shelp() Shell help (print this help) 


Ts] view(response) View response in a browser 








-30 16:11:33 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.t 


8-01-30 16:11:33 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.t 








图 16.13 scrapy shell 
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从 上 图 可 看 出 response 的 返回 代码 为 200， 是 正常 返回 ， 已 成 功 获取 该 网 页 的 response。 下 面 
可 以 试验 选择 器 了 ， 打 开 Chrome 浏览 器 〈 任 意 一 个 浏览 器 都 可 以 ) ， 在 地 址 栏 输入 
https://www.tianqi.com/wuhan/ 并 按 Enter 键 打开 网 页 。 在 任意 空白 处 单 击 鼠 标 右键 ， 选 择 “查看 网 
页 源 代 码 ” 选 项 ， 如 图 16.14 所 示 。 
i 
所 © © hpsy//wwwtianqicom/wuhan/ 娘 


武汉 天 气 预报 [当前 铸 市 】 | 资讯 最 新 天 气 天 气 灶 识 万 年 历 其 它 资讯 | 头条 天 气 热点 生活 娱乐 养生 旅游 关 食 


天 SS+EED we we we ress 


武汉 tmnt 


2018 年 01 月 29 日 时 期 一 “丁丁 年 顷 月 十 三 


o1 月 30 日 ”0 有 3 日 
= 





图 16.14 查看 网 页 源 代码 


在 框架 源 代码 页 使 用 Ctrl+F 组 合 键 查找 关键 词 “ 武 汉 天 气 预报 一 周 ”， 虽 然 有 5 个 结果 ， 但 
也 很 容易 就 能 找到 所 需 数 据 的 位 置 ， 如 图 16.15 所 示 。 


© 【二 天 所 各] 去 这 = X ) € view-sourcehttps//w x 


janqicom/wuban/ 









129 class—"honeqi” 2 st ^ ~ Xx| 量 
《可可 站 出 ; 07: 15br /日 落 17:55/span><fdd) 

130 ‘> 

1 /ivy 

132 Civ ela “right”) 

133 iv 吕 三 "top -局 
re 人 YYwabany 30/”) 武 汉 30 天 天 气 <jaX/sparD/ 放 

134 hy ler"dayT> 

135 < class="vesk’> 








li 0 RPOLB YE 
> li 
《Hb 月 02 日 /bpam 星 期 五 /可 mntane 


> 
<11>Ch>02 月 03 日 Vb CpamD 星 期 六/ pan >ine 
Bp" > > 





《itby0 月 04 日 ty pa 星期 日 /地 mm)ting 
reo=" betp. /picd, ttanat un coV st st io/yap2018/icol/bl, pne”> 11> 

143 ub 

144 Cu class=rtxt trt2") 

















145 pe 
146 

147 

148 

149 

150 

151 

152 /uy 

153 div clars="zet_shuja” styledisplay: noone”> 

154 人 > 

155 mT DHT | 
155 im apmmXby-5</by</ 1 -1 
157 py Pb = 


图 16.15 查找 所 需 数据 位 置 
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仔细 观察 了 一 下 ， 似 乎 所 有 的 数据 都 是 在 <div class= "day7"> 这 个 标签 下 的 ， 试 一 下 查找 页 面 
还 有 没有 其 他 的 <div class= "day7"> 的 标签 〈 这 种 可 能 性 已 经 很 小 了 ) 。 如 果 没 有 ， 就 将 <div class= 
"day7"> 作 为 XPath 的 锚 点 ， 如 图 16.16 所 示 。 


be 


ER 


= 




















C | @ se view-sourcentps//wwwtianqlcom/wunan/ 嫌 加 是 四 口 图 
Ta | RR 去 
1 a class="kongqi” YS ourd-col or te579 | div class="day7" 和 A^vx 
《pp 晶 出: 07; 15%r 日落: 17:55<fspapf dl 
1 > 
134 ja 
1 Sly clas 








> 武汉 天 气 巴 报 一 周 Yh1 ysp ny Ca href- /wiban/15/") 武 滩 15 天 天 气 f 如 
pad/ dv 


Cli><b)01E9 YbY ep 里 抽 /Pine 
se bt /1pica timai jum east atic /emo013/icol/b0 pre”>o/1i) 







Ed bo01 DA Yb span EP= /ayne 
二 ye /ie 
UG ope spaDcine 
bs a re 
. a BN sae 

ct static /ono0 Hi oth me NS 


lipt2AO Vb? ‘spe? EM Pcine 
lhl poe > li> 





DSEND 


fy 
Civ ela ret_shuju” style disply monei 
人 





PicgianqjuncorVetatic/ .bo.png 


16.16 ”测试 锚 点 


从 页 面 上 来 看 ， 每 天 的 数据 并 不 是 存储 在 一 起 的 ， 而 是 用 类 似 表格 的 方式 按照 列 来 存储 的 。 
不 过 没关系 ， 可 以 先 将 数据 抓 取出 来 再 处 理 。 先 以 锚 点 为 参照 点 ， 将 日 期 和 星期 抓 取出 来 。 回 到 
Putty 下 的 scrapy shell 中 ， 执 行 命令 : 


selector = response.xpath('//div[@class="day7"] ') 
selectorl = selector.xpath('ul[@class="week"]/1i') 
selectorl 


执行 结果 如 图 16.17 所 示 。 


次 king@debian8: ~/code/scrapy/weather/weather 


:| selector ~ response.xpath("//di 














: selector 
: [<Selector xpath='//divi@class="day7"]' data='<div class="day7">\r\n\t\ 
class="week"'>] 





: [Selectorl = selector.xpath('ui 











~ 人 


selectorl 


ieclass="week"]/1i' data='<1i><b>01 月 30 日 </b><span> 星 期 二 </s 


<Selector xpath ， data='<1i><b>01 月 31 日 </b><span> 星 期 三 </s 


lpan><img sr'>, 
<Selector xpai 
pan><ing sr'>, 





ieclass="week"] 





<Selector xpath='ull@class-"wee 


"ulleclass-"weel 





I@class="week"] 


<Selector xpath='uileclass-"week"} 
lpan><ing sr'>] 


' data= 


* data= 


"<li><b>02 月 01 日 </b><span> 星 期 四 </s 
data="'<1i><b>02 月 02 日 </b><span» 星 期 五 </s 
b>02 月 03 日 </b><span> 星 期 六 </s 


b>02 月 04 日 </b><span> 星 期 日 </s 





"<ii><b>02 月 05 日 </b><span> 星 期 一 </s 





图 16.17 确定 XPath 锚 点 
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然后 从 selectorl 中 提取 有 效 的 数据 ， 如 图 16.18 所 示 。 


中 king@debian8: ~/code/scrapy/weather/weather 


lpan><img sr'>, 

Selector xpath dara-'<li><b>01 月 31 日 </b><span> 星 期 三 </s 
mg sr'>, 

or xpathn'ulfeclassn"week"]/1i， data='<li><b>02 月 01 日 </b><span> 星 期 四 </s 
lpan><img sr'>, 

<Selector xpath='ul[@class="week"]/1i' data='<1i><b>02 月 02 日 </b><span> 星 期 五 </s 
lpan><img sr'>, 

(8class="week"] data="'<1i><b>02 月 03 日 </b><span> 星 期 六 </s 


<Selector xpath='ull@class="week"]/1i' data='<li><b>02 月 04 日 </b><span> 星 期 日 </s 
pan><img sr'>, 


<Selector xpath='ull@class-"week"]/1i1 data-'<cli><b>02 月 05 日 </b><span> 星 期 一 </s 
lpan><img sr'>] 





selector1{0] .xpath('b/text () ') .extract () 
1'01 月 30 昌 


selector1[0] .xpath('span/text () ") .extract () 


[' 星 期 二 '] 


selector1[0] .xpath('i 7 .extract () 
Thttp://pic9.tianqijun.com/static/wap2018/icol/bl.png'] 








16.18 ”XPath 选择 器 获取 数据 


图 16.18 已 经 将 日 期 .星期 和 图 片 挑选 出 来 了 , 其 他 所 需 的 数据 可 以 按照 相同 的 方法 一 一 挑选 。 
现在 过 滤 数 据 的 方法 已 经 有 了 ，Scrapy 项 目 中 的 朴 虫 文件 wuHanSpider.py 也 基本 明朗 了 。 
wuHanSpider.py 的 代码 如 下 : 


01 # =*= coding: utf-8 一 “一 
02 import scrapy 
03 from weather.items import WeatherItem 


04 

05 

06 class WuhanspiderSpider (scrapy.Spider): 
07 name = "wuHanSpider' 

08 allowed _ domains = ['tianqi.com'] 


09 citys = ['wuhan', 'shanghai'] 
10 start urls = [] 
11 for city in citys: 


12 start urls.append('https://www.tiangqi.com/' + city) 

13 

14 def parse(self, response): 

5 items= [] 

16 city = response.xpath('//dd[eclass="name"]/h2/text() ') .extract () 

二 Selector = response.xpath('//div[@class="day7"] ') 

18 date = Selector.xpath('ul[@class="week"] /1i/b/text()') .extract () 

19 week = Selector.xpath('ul[@class="week"] /li/span/text()') .extract () 

20 wind = Selector.xpath('ul [@class="txt"]/1i/text ()') .extract () 

21 weather = Selector.xpath('ul[@class="txt txt2"]/li/text()') .extract() 

22 temperaturel=Selector.xpath('div[@class="zxt shuju"]/ul/li/span/text () ') .extract () 
23 temperature2 = Selector.xpath('div[@class="zxt shuju"]/ul/li/b/text () ') .extract() 
24 for i in range(7): 

25 item = WeatherItem() 

26 try: 

27 item['cityDate'] = city[0] + date[i] 

28 item['week'] = week[i] 


29 item['wind'] = wind[i] 
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30 item['temperature'] = temperaturel[i] + ',' + temperature2[i] 
31 item['weather'] = weather[i] 

2 except IndexError as ed: 

33 sys.exit(-1) 

34 items .append (item) 

35 return items 


在 文件 开头 别 忘 了 导入 scrapy 和 items 模块 。 在 第 8~11 行 中 ， 给 start_urls 列表 添加 了 上 海天 
气 的 网 页 。 如 果 还 想 添加 其 他 城市 的 天 气 ， 可 以 在 第 9 行 的 citys 列表 中 添加 城市 代码 。 


3. 修改 pipelines.py， 处 理 Spider 的 结果 
这 里 还 是 将 Spider 的 结果 保存 为 txt 格式 ， 以 便于 阅读 。pipelines.py 文件 内 容 如 下 : 


0L # =*= coding; utf-8 ~*= 

02 

03 # Define your item pipelines here 

04# 

05 # Don't forget to add your pipeline to the ITEM PIPELINES setting 
06 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
07 

08 import time 

09 import codecs 

10 

11 class WeatherPipeline(object): 

到 def process item(self, item, spider): 


13 today = time.strftime('%Y%m$d', time.localtime()) 
14 fileName = today + '.txt' 

with codecs .open (fileName, ‘a', ‘'utf-8') as fp: 
16 fp.write("%s \t %s \t $s \t %s \t $s \r\n" 

i %(item['cityDate'], 

18 item['week'], 

9 item['temperature'], 

20 item['weather'], 

2 item['wind'])) 

22 return item 


第 1 行 确认 字符 编码 ， 实 际 上 这 一 行 没 多 大 必要 ， 在 Python 3 中 默认 的 字符 编码 就 是 utf-8。 
第 8~9 行 导 入 所 需 的 模块 。 第 13 行 用 time 模块 确定 了 当天 的 年 月 日 ， 并 将 其 作为 文件 名 。 后 面 则 
是 一 个 很 简单 的 文件 写 入 。 

4. 修改 settings.py， 决 定 由 哪个 文件 来 处 理 获取 的 数据 

Python 3 版 本 的 settings.py 比 Python 2 版 本 的 要 复杂 很 多 。 这 是 因为 Python 3 版 本 的 settings.py 
已 经 将 所 有 的 设置 项 都 写 进 去 了 ， 和 暂时 用 不 上 的 都 当成 了 注释 ， 所 以 这 里 只 需要 找到 
ITEM_PIPELINES 这 一 行 ， 将 前 面 的 注释 去 掉 就 可 以 了 。Settings.py 这 个 文件 比较 大 ， 这 里 只 列 出 
有 效 的 设置 。settings.sp 文件 内 容 如 下 : 


Ol # =*= coding: utf=8 =*= 


02 

03 # Scrapy settings for weather project 

04# 

05 # For simplicity, this file contains only the most important settings by 
06 # default. All the other settings are documented here: 
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07 非 

08 # http://doc.scrapy.org/en/latest/topics/settings.html 
09# 

10 

11 BOT NAME = "weather'" 

12 

13 SPIDER MODULES = ['weather.spiders'] 

14 NEWSPIDER MODULE = 'weather.spiders'" 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the User-Agent 
17 #USER AGENT = 'weather (+http://www.yourdomain.com)' 

18 

19 #### user add 

20 ITEM PIPELINES = { 

21 'weather.pipelines.WeatherPipeline':300， 

S20 


最 后 回 到 weather 项 目下 ， 执 行 命令 : 


scrapy crawl wuHanSpider 
ls 
more *.txt 


得 到 结果 如 图 16.19 所 示 。 















四 

‘scheduler/dequeued': 2, ~ 
‘scheduler/dequeued/memory': 2, 

"scheduler/enqueued': 2, 

'scheduler/enqueued/memory' : 2, 

‘start time': datetime.datetime(2018, 1, 30, 14, 40, 45, 551636)} 
2018-01-30 22:40:45 [scrapy.core.engine] INFO: Spider closed (finished) 
kingedebian8:~/code/scrapy/weathers 1s 

20180130.txt scrapy.cfg weather 

kingedebian8:~/code/scrapy/weathers more *.txt 

武汉 01 月 30 日 期 二 4,-7 多 云 北 风 

武汉 01 月 31 日 星期 6,-7 多 云 北 风 

武汉 02 月 01 日 星期 7,-5 晴 东北 风 

武汉 02 月 02 日 星期 五 8,-4 阴 北 风 

武汉 02 月 03 日 星期 六 7,-4 晴 东北 风 

武汉 02 月 04 日 星期 日 7,-3 多 云 东风 

武汉 02 月 05 日 星期 一 T,-3 朋 东风 

上 海 01 月 30 日 星期 二 4,-3 四 西北 风 

上 海 01 月 31 日 星期 三 3,-1 胃 西北 风 

上 海 02 月 01 日 星期 四 6,-1 上 晴 北 风 

上 海 02 月 02 日 星期 五 6,0 多 云 西北 风 

上 海 02 月 03 日 星期 六 1,-2 晴 西北 风 

上 海 02 月 04 日 星期 日 lv,-3 晴 西北 风 

上 海 02 月 05 日 星期 一 3,-5 晴 北 风 
king@debian8:~/code/scrapy/weather$ [| v 











图 16.19 保存 结果 为 txt 格式 
至 此 ， 一 个 完整 的 Scrapy 爬虫 就 已 经 完成 了 。 


16.3.3 数据 存储 到 json 


有 时 候 我 们 习惯 把 怜 取 的 结果 保存 为 .txt 文件 格式 。 但 txt 格式 文件 的 优点 仅仅 是 方便 阅读 ， 
而 程序 阅读 一 般 都 是 使 用 更 方便 的 json、cvs 等 格式 。 有 时 程序 员 更 加 希望 将 疏 取 的 结果 保存 到 数 
据 库 中 ， 便 于 分 析 统 计 。 记 以 本 节 将 继续 讲解 Scrapy 仆 虫 的 保存 方式 ， 也 就 是 继续 对 pipelines.py 
“动手 术 ”。 
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这 里 以 json 格式 为 例 ， 其 他 的 格式 都 大 同 小 异 ， 读 者 可 自行 摸索 测试 。 既 然 是 保存 为 json 格 
式 ， 当 然 就 少不了 Python 的 json 模块 了 。 幸运 的 是 json 模块 是 Python 的 标准 模块 ， 无 须 安装 即 可 
直接 使 用 。 

保存 疏 取 结果 必定 涉及 pipelines.py。 我 们 可 以 直接 修改 这 个 文件 ， 然 后 修改 一 下 settings.py 
中 的 ITEM_PIPELINES 项 即 可 。 但 是 仔细 看 看 settings.py 中 的 ITEM_PIPELINES 项 ， 它 是 一 个 字 
典 。 因 为 字典 是 可 以 添加 元 素 的 ， 所 以 完全 可 以 自行 构造 一 个 Python 文件 ， 然 后 把 这 个 文件 添加 
到 ITEM_PIPELINES 就 可 以 了 。 但 是 这 个 思路 是 否 可 行 ， 下 面 需要 测试 一 下 。 

为 了 “表明 身份 ”， 笔 者 给 这 个 新 创建 的 Python 文件 取 名 为 pipelines2json.py， 这 个 名 字 简 单 
明了 ， 而 且 显 示 了 与 pipellines.py 的 关系 。pipelines2.json 的 文件 内 容 如 下 : 


01 # -=*- coding: utf-8 一 * 一 


02 

03 # Define your item pipelines here 

04 草 

05 # Don't forget to add your pipeline to the ITEM PIPELINES setting 
06 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 
07 


08 import time 
09 import codecs 
10 import json 


1 

12 class WeatherPipeline(object): 

3 def process item(self, item, spider): 

14 today = time.strftime('%Y%m%$d', time.localtime()) 
15 fileName = today + '.json’' 

16 with codecs.open (fileName, 'a', 'utf-8') as fp: 
2 jsonstr = json.dumps(dict(item)) 

18 fp.write("%s \r\n" %jsonstr) 

9 return item 


然后 修改 settings.py 文件 ,将 pipelines2json 加 入 到 ITEM_PIPELINES 中 去 .修改 后 的 settings.py 
文件 内 容 如 下 : 


01 # -*- coding; utf-8 一 * 一 


02 

03 # Scrapy settings for weather project 

04 # 

05 # For simplicity, this file contains only the most important settings by 
06 # default. All the other settings are documented here: 
07# 

08 # http://doc.scrapy.org/en/latest/topics/settings.html 
09# 

10 

11 BOT NAME = 'weather' 

4 


13 SPIDER MODULES = ['weather.spiders'] 

14 NEWSPIDER MODULE = "weather.spiders' 

15 

16 # Crawl responsibly by identifying yourself (and your website) on the User-Agent 
17 #USER AGENT = 'weather (+http://www.yourdomain.com)' 

18 

19 
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20 ITEM PIPELINES = { 

21 'weather.pipelines.WeatherPipeline':300, 

22 'weather.pipelines2json.WeatherPipeline':301 
3 


测试 一 下 结果 。 回 到 weather 项 目下 执行 命令 : 


scrapy crawl wuHanSpider 
1s 
car SO 


得 到 的 结果 如 图 16.20 所 示 。 
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tyDate": "\u4e0a\u6d77 
"\u5317\u98ce", "temper 
king@debian8:~/code/scrapy/ 















图 16.20 保存 结果 为 json 


从 上 图 来 看 试验 成 功 了 。 按 照 这 个 思路 ， 如 果 将 结果 保存 成 csv 等 格式 ，settings.py 应 该 怎么 
修改 就 很 明显 了 。 


16.3.4 数据 存储 到 MySQL 


数据 库 有 很 多 ， 如 MySQL、SQLite3、Access、Postgresql 等 ， 可 选择 的 范围 很 广 ， 前 面 我 们 
也 在 数据 库 实 战 中 介绍 过 MySQL、SQLite3。 笔 者 选择 的 标准 是 ，Python 支持 良好 、 能 够 跨 平 台 、 
使 用 方便 ， 其 中 Python 标准 库 默 认 支持 SQLite3， 因 此 这 里 笔者 选择 名 气 较 大 、Python 支持 也 不 
背 的 MySQL。 前面 介绍 了 Windows 下 的 MySQL 使 用 ,这 里 再 介绍 一 下 Linux 下 MySQL 的 使 用 。 
在 Linux 上 安装 MySQL 很 方便 。 首 先 连接 Putty， 然 后 使 用 root 用 户 权限 ， 执 行 命令 : 


apt-get install mysql-server mysql-client 














在 安装 过 程 中 ,会 要 求 输 入 MySQL 用 户 root 的 密码 ( 此 root 非 彼 root, 一 个 是 系统 用 户 root， 
一 个 是 MySQL 的 用 户 root )。 这 里 设置 MySQL 的 root 用 户 密码 为 debian8。 
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MySQL 安装 完毕 后 ， 默 认 是 自动 启动 的 。 首 先 连接 到 MySQL， 查 看 MySQL 的 字符 编码 。 执 
行 命 令 : 


mysql -u root -p 
SHOW VARIABLES LIKE “characters®”; 


执行 结果 如 图 16.21 所 示 。 


ingt 





[Copyright (c) 2000, 2016, Oracle and/or its affiliates. All rights reserved 


oracle is a registered trademark of Oracle Corporation and/or its 
laffiliates. Other names may be trademarks of their respective 
lowners. 


Type ‘help;' or '\h' for help. Type '\c' to clear the current input statement. 


Imysql> SHOW VARIABLES LIKE 'character'; 
+-------------------------- +---------------------------- + 
1 Variable_name 


character set client 
character_ set_connection 

character_set_database latinl 
character set filesystem | binary 


character set results urcf8 

character_ set server latinl 

character ser_system utfe 
/usr/share/mysql/charsets/ 


rows in set (0.00 sec) 


Imysql> [| 


16.21 MySQL 默认 字符 编码 


其 中 character_set_database 和 character_set_server 设置 的 是 latinl 编码 ， 刚 才 用 Scrapy 采集 的 
数据 都 是 utf8 编码 。 如 果 直 接 将 数据 加 入 数据 库 必定 会 在 编程 处 理 数 据 时 出 现 乱码 问题 ， 需 要 稍 
微 修改 一 下 。 网 上 有 很 多 彻底 修改 MySQL 默认 字符 编码 的 帖子 ， 但 由 于 版 本 的 问题 不 能 通用 。 因 
此 只 能 采取 策 方 法 ， 不 修改 MySQL 的 环境 变量 ， 只 在 创建 数据 库 和 表 的 时 候 指定 字符 编码 。 创 建 
数据 库 和 表格 ， 在 MySQL 环境 下 执行 命令 : 


CREATE DATABASE scrapyDB CHARACTER SET 'utf8' COLLATE 'utf8 general Ci'; 
USE scrapyDB; 

CREATE TABLE weather( 

id INT AUTO INCREMENT, 

cityDate char(24), week char(6), 

img char(20), 

temperature char(12), 

weather char(20), 

wind char (20), 

PRIMARY KEY(id) )ENGINE=InnoDB DEFAULT CHARSET=utf8; 


执行 结果 如 图 16.22 所 示 。 
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|oracle is a registered trademark of Oracle Corporation and/or its 
affiliares。 Other names may be trademarks of their respective 
lowners. 


Type ‘help;' or '\h' for help. Type '\c' to clear the current input statement. 


Imysql> CREATE DATABASE scrapyDB CHARACTER SET ‘utf8' COLLATE 'utf8 general Ci'; 


Query OK, 1 row affected (0.03 sec) 
mysql> UsE scrapyDB ; 


NE E 
id INT AUTO INCREMENT, 

cityDate char(24), week char(6), 

img char(20), 

temperature char(12), 

weather char(20), 

wind char(20), 

PRIMARY KEY(id) )ENGINE=InnoDB DEFAULT CHARSET=utf8; 





16.22 创建 数据 库 


其 中 第 一 条 命令 是 创建 了 一 个 默认 字符 编码 为 utf8、 名 字 为 scrapyDB 的 数据 库 。 第 二 条 命令 
进入 数据 库 。 第 三 条 命令 是 创建 了 一 个 默认 字符 编码 为 utf8、 名 字 为 wetaher 的 表格 。 查 看 这 个 表 
格 的 结构 ， 如 图 16.23 所 示 。 






from weathe: 








ysql> show columns 





















1 

二 
1 id 1 inc(11) 
| cityDate 1 char(24) 
| week 1 char(6) 
1 img 1 char(20) 
| temperature | char(12) 
| weather 1 char(20) 
1 wind 1 char(20) 
+ 3 2 








7 rows in set (0.00 sec) 








mysql> 


图 16.23 查询 表 结构 


由 图 16.23 可 以 看 出 表格 中 的 项 基本 与 wuHanSpider 候 取 的 项 相同 。 至 于 多 出 来 的 那 一 项 id， 
是 作为 主键 存在 的 。 因 为 MySQL 的 主键 是 不 可 重复 的 ,而 wuHanSpider 疏 取 的 项 中 没有 符合 这 个 
条 件 的 ， 所 以 还 需要 另外 提供 一 个 主键 给 表格 才 更 加 合适 。 

创建 完 数据 库 和 表格 ,下 一 步 创 建 一 个 普通 用 户 并 赋予 管理 数据 库 的 权限 ,在 MySQL 环境 下 ， 


INSERT INTO mysql.user (Host,User, Password) VALUES("%","crawlUSER",password ("crawl123")); 
INSERT INTO mysql.user (Host,User, Password) 

VALUES ("localhost", "crawlUSER", password ("crawl123")); 
GRANT all privileges ON scrapyDB.* to crawlUSER@all IDENTIFIED BY 'crawl123'; 
GRANT all privileges ON scrapyDB.* to crawlUSER@localhost IDENTIFIED BY 'crawl123'; 


执行 结果 如 图 16.24 所 示 。 
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[mysql> INSERT INTO mysql.user (Host,User,Password) VALUES("$","crawlUSER",passwor < 
dl("crawl123")); 
lQuery OK, 1 row affected, 3 warnings (0.00 sec 


Imysql> INSERT INTO mysql.user (Host,User,Password) VALUES ("localhost", "crawlUSER" 
,password ("crawl123")); 

Query OK, 1 row affected, 3 warnings (0.00 sec 

nysql> GRANT all privileges ON scrapyDB.* to crawlUSER@all IDENTIFIED BY 'crawll 
Query OK, 0 rows affected (0.00 sec 

mysql> GRANT all privileges ON scrapyDB.* to crawlUSER@localhost IDENTIFIED BY ' 
crawl123'; 


|euery OK, 0 rows affected (0.00 sec 


mysql> exit; 





16.24 创建 新 用 户 并 赋予 管理 权限 


第 1 条 命令 创建 了 一 个 用 户 名 为 crawlUSER 的 远程 用 户 ， 该 用 户 只 能 远程 登录 ， 不 能 本 地 登 
录 。 第 2 条 命令 创建 了 一 个 用 户 名 为 crawlUSER 的 本 地 用 户 ， 该 用 户 只 能 本 地 登录 ， 不 能 远程 登 
录 。 第 3~4 条 命令 则 赋予 了 crawlUSER 用 户 管理 scrapyDB 数据 库 的 所 有 权限 。 最 后 退出 MySQL。 
至 此 ， 数 据 库 方面 的 配置 已 经 完成 ， 静 待 Scrapy 来 连接 了 。 

在 Python 第 三 方 库 中 能 连接 MySQL 的 库 有 不 少 ， 这 里 笔者 选择 经 常 使 用 的 PyMySQL。 


Linux 中 安装 Pymysql3 模块 

在 Linux 下 安装 Pymysql3 模块 ， 比 较 简 单 的 方法 是 借助 Debian 庞大 的 软件 库 〈 可 以 说 只 要 不 
是 私有 软件 ，Debian 软件 库 总 不 会 让 人 失望 ) 。 在 终端 下 执行 命令 : 

Python3 -m pip install pymysql3 

执行 结果 如 图 16.25 所 示 。 


king@debian8: ~ -= 总 x 
9 


king@debian8:~$ su ~ 
密码 : 
=ootedebian8:/home/king# python3 -m pip install pymysql3 
Collecting pymysql3 
Downloading https://mirrors.ustc.edu.cn/pypi/web/packages/82/c4/55b23360d9d719 
SefSe2e5266b9953£562cla3cScele4f71df6c72587a0e/PyMySQL3-0.5.tar.gz 
Building wheels for collected packages: pymysql3 
Running setup.py bdist_wheel for pymysql3 ... done 
Stored in directory: /root/.cache/pip/wheels/a3/57/4c/cf6f£8211dcb6243£94a374be 
9a8290b2aa6cc5352c09055f62 
| successfully built pymysql3 
Installing collected packages: pymysql3 
Successfully installed pymysql3-0.5 
root@debian8: /home/king# 
root@debian8: /home/king 


图 16.25 在 Linux 下 安装 pymysql3 模块 





















安装 这 个 模块 必须 是 root 用 户 权 限 。 





Python 模块 及 MySQL 的 库 表 格 都 准备 完毕 ， 现 在 可 以 编辑 pipelines2mysql.py 了 。 在 项 目 名 
为 weaterh 的 Scrapy 项 目 中 的 pipelines.py 同 层 目录 下 使 用 文本 编辑 器 编写 pipelines2mysqlpy， 编 
辑 完毕 的 pipeliens2mysql.py 的 内 容 如 下 : 
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01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
11 
12 
13 
14 
15 
16 
这 
18 
19 
20 
2 
22 
23 
24 
25 
26 


2 
28 
29 
30 
3 
32 


第 


# -*- coding: utf-8 





Define your item pipelines here 


Don't forget to add your pipeline to the ITEM PIPELINES setting 
See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html 


入 太太 种 


import pymysql 


class WeatherPipeline (object): 
def process item(self, item, spider): 
cityDate = item['cityDate'] 
week = item['week'] 
temperature = item['temperature'] 
weather = item['weather'] 
wind = item['wind'] 


conn = pymysql.connect( 
host = 'localhost', 
port = 3306, 
user = 'crawlUSER', 
Passwd = 'crawll23', 
db = 'scrapyDB', 
charset = 'utf8') 
cur = conn.cursor() 
mysqlCmd = "INSERT INTO weather(cityDate, week, temperature, weather, wind) 
VALUES ('%s', '%Ss', '$%Ss', '$%s', '$%s');" %(cityDate, week, temperature, weather, wind) 
cur .execute (mysqlcmd) 
cur.close() 
conn .commit () 
conn.close () 


return item 


1 行 指定 了 疏 取 数据 的 字符 编码 ， 第 8 行 导入 了 所 需 的 模块 。 第 25~30 行使 用 Pymysql 模 


块 将 数据 写 入 了 MySQL 数据 库 中 。 最 后 在 settings.py 中 将 pipelines2mysql.py 加 入 到 数据 处 理 数列 
中 。 修 改 后 的 settings.py 内 容 如 下 : 


01 
02 
03 
04 
05 
06 
07 
08 
09 
10 
1 
12 
13 
14 
15 
16 
TI 


# =*= coding: vt-0 =*= 


Scrapy settings for weather project 


For simplicity, this file contains only the most important settings by 
default. All the other settings are documented here: 


http://doc.scrapy.org/en/latest/topics/settings.html 


提 寺 


BOT_NAME = 'weather' 


SPIDER MODULES = ['weather.spiders'] 
NEWSPIDER MODULE = "weather.spiders' 


# Crawl responsibly by identifying yourself (and your website) on the User-Agent 
#USER AGENT = 'weather (+http://www.yourdomain.com)" 
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18 

19 #### user add 

20 ITEM PIPELINES = { 

21 'weather.pipelines.WeatherPipeline':300, 

22 'weather.pipelines2json.WeatherPipeline':301, 
23 'weather.pipelines2mysql.WeatherPipeline' :302 
24 )} 


实际 上 就 是 把 pipelines2mysql 加 入 到 settings.py 的 ITEM_PIPELINES 项 的 字典 中 就 可 以 了 。 
最 后 运行 scrapy 爬虫 查看 MySQL 中 的 结果 ， 执 行 命令 : 

scrapy crawl wuHanSpider 

mysql -u crawlUSER -p 

use scrapyDB; 

select * from weather; 


执行 结果 如 图 16.26 所 示 。 








~ 
Imysql> select * from weather; 
Poth Po 4------ 4------------- 4 4----~-----~ + 
1 id | cityDate | week | img | temperature | weather | wind 1 
Poot ee Pe poate HE PE + 
1 19 1 武汉 01 月 30 日 1 星期 二 1 NULL | 4,-7 1 多 云 1 北 风 1 
1 20 | 武汉 01 月 30 日 1 星期 二 1 NULL | 4,-7 1 胃 1 北 风 1 
1 21 | 武汉 01 月 31 日 1 星期 三 1 NULL | 6,-7 1 多 云 1 北 风 1 
1 22 | 武汉 02 月 01 日 | 星期 四 1 NULL | 7,-5 1 晴 1 东北 风 1 
1 23 | 武汉 02 月 02 日 1 星期 五 1 NULL | 8,-4 1 胃 1 北 风 1 
1 24 1 武汉 02 月 03 日 1 星期 六 1 NULL | 7,-4 1 晴 1 北 风 1 
1 25 | 武汉 02 月 04 日 1 星期 日 1 NULL | 7,-3 1 多 云 1 东风 1 
1 26 | 武汉 02 月 05 日 1 星期 一 | NULL | 7,-3 1 阴 1 东风 1 
1 27 | 上 海 01 月 30 日 1 星期 二 | NULL | 4,-3 | 烙 1 西北 风 1 
1 28 | 上 海 01 月 31 日 1 星期 三 1 NULL | 3,-1 1 阴 1 西北 风 1 
1 29 | 上 海 02 月 01 日 1 星期 四 | NULL | 6,-1 1 晴 1 北 风 1 
1 30 | 上 海 02 月 02 日 1 星期 五 1 NULL | 6,0 1 多 云 1 北 风 1 
1 31 | 上 海 02 月 03 日 1 星期 六 1 NULL | 1,-2 1 晴 1 西北 风 1 
1 32 | 上 海 02 月 04 日 1 星期 日 1 NULL | 1,-3 1 晴 1 西北 风 1 
1 33 | 上 海 02 月 05 日 1 星期 一 1 NULL | 3,-5 1 晴 1 北 风 1 
15 rows in set (0.00 sec) 
Imysql> 中 ~ 








16.26 ”MySQL 中 的 数据 


MySQL 中 显示 Pymysql3 模块 存储 数据 有 效 。 这 个 Scrapy 项 目 到 此 就 顺利 完成 了 。 

一 般 来 说 为 了 阅读 方便 ， 结 果 保 存 为 txt 格式 的 文件 就 可 以 了 。 如 果 怜 取 的 数据 不 多 ， 需 要 存 
入 表格 备查 , 保存 为 cvs 或 json 格式 的 文件 会 更 方便 ; 如 果 需 要 疏 取 的 数据 非常 大 ， 那 还 是 老 老实 
实 的 使 用 MySQL 吧 ， 专 业 的 软件 就 做 专业 的 事情 。 


